1. 场景
经常有小伙伴在交流群问我,每天的早报新闻是怎么获取的?
其实,早期使用的方案,是利用爬虫获取到一些新闻网站的标题,然后做了一些简单的数据清洗,最后利用 itchat 发送到指定的社群中。
由于爬虫面对 网站改版的不稳定性及 itchat 不安全性 ,所以放弃了这种方案
后期更改了一种方案,通过修改爬虫方案,创建 API 服务,编写 App 去获取数据,然后手动发送到微信群
本篇文章将和大家详细聊聊具体的实现过程
2. 数据爬取
第 1 步, 通过 Python 爬虫获取数据
获取方式有 2 种,分别是:已有的新闻早报网站、新闻网站的头条新闻
选择一种爬虫方式,就能很快地爬取到目标网站的数据
第 2 步, 数据清洗,排序
将爬取到的数据先进行一次关键字筛选,然后按照点赞或者阅读数按照热点进行排序
第 3 步, 参数化,去重
去掉数据中重复的新闻,然后将最后展示的数目参数化
# 按照点赞数目,降序排列
news_sorted_pro = sorted(news, key=itemgetter('news_approve_num'), reverse=True)
result = []
for news_sorted_item in news_sorted_pro:
result.append(news_sort