Python编写简单搜索引擎之爬虫篇代码（计算站内相关文章pagerank值）

最新推荐文章于 2024-07-15 13:44:00 发布

AnjaVon

最新推荐文章于 2024-07-15 13:44:00 发布

阅读量607

点赞数 3

分类专栏：乱乱乱七八糟

本文链接：https://blog.csdn.net/sinat_41135487/article/details/106456764

版权

13 篇文章 2 订阅

订阅专栏

仅作为一个项目的学习记录

       爬取电玩巴士部分文章作为后台数据，根据页面内相关文章计算PR值。爬取与计算均较为简单，不考虑复杂度，因此大量数据下运行时间较长有待改进。
       具体是学习Mooc网bobby老师的课程，个人总结和教程之后写。(多么鲜艳的Flag)
        搜索引擎搭建项目指路

项目地址
运行 esType.py 在ES中创建数据映射
因为在虚拟机写的python物理机运行ES所以改了各种连接配置
解决：替换所有的192.168.1.106为localhost
运行 main.py 开始爬虫（默认设置爬取500页、需半小时左右、可在tgbus.py内修改）
运行 pagerank.py 开始计算pr值
程序运行较慢（主要应该是在写入和查询es的地方，还有在筛选相关内容的算法上）。
P.S.如果网站有浏览量、点赞数、收藏数之类的数据可以作为添加网页权重值的依据改进为其他算法（比如HITS、TrustRank）