源 / TEDxPY 文 / TED 今天来分享下这两天写的入门级的爬取知乎热榜和微博热门数据的代码和思路。 网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。 知乎热榜中的内容热度值,是根据该条内容近24小时内的浏览量、互动量、专业加权、创作时间及在榜时间等维度,综合计算得出的。知乎热榜即根据内容热度值制定的排行榜。
微博的热度值是根据该篇微博被转发、点赞数和微博发布时间等各项因素,来算出热度基数,再与热度权重相加,得出最终的热度值。微博热门即话题热度排行榜。 微博热门链接: https://s.weibo.com/top/summary
今天我们要做的就是将相关排行榜中的话题内容爬取下来当作数据素材。换句话说,我们要把页面上排好的信息,通过代码读取并保存起来。 <
知乎热榜链接:https://www.zhihu.com/billboard
https://www.zhihu.com/hot
![e32d4a00222b99fed30ee61cb9ccf3a2.png](https://i-blog.csdnimg.cn/blog_migrate/377967bfc6d6295b869f88d2e497377f.jpeg)
![b9145228360b79f54dde9e6c556174e6.png](https://i-blog.csdnimg.cn/blog_migrate/608e47022b987c5dca22778ada461f59.jpeg)