50行代码教你打造一个公众号文章采集器

最新推荐文章于 2024-08-23 12:14:25 发布

IT派

最新推荐文章于 2024-08-23 12:14:25 发布

阅读量8.7k

点赞数 3

Alfred的女票是一枚数据科学领域的新媒体运营官（是的，Alfred是一名程序员，Alfred有女票 640? ），每天都要阅读大量的行业相关文章，以掌握行业的动向，挑选和生产相关内容。为此，她关注了一大批的相关公众号，每天都一个个公众号挨个点开阅读，怪麻烦的。

一来可能漏掉某些公众号更新的重要讯息，二来经常会看到转载的重复性的文章。

这可咋办呢？

身为一个合（gao）格（shi）的男票，我是那个看在眼里急在心里啊！

那就写一个公众号文章的收集器吧，每天早上9点的时候都把昨天一天以来各个行业内公众号发表的文章的标题、摘要和链接等相关信息爬下来，形成一个文档发给女票，这样可以大大方便阅读。

就这么愉快地决定了

需求很简单，主要分为两块，一块是公众号文章爬取，一块是把爬回来的文章储存为word文档。

公众号文章爬取

首先跟女票要了她关注的公众号，结果她发我很长很长的一串列表，足足有50多个公众号。算了算，如果每个公众号每天更新3篇文章，那么她每天最少就得看150多篇公众号文章，确实是够呛呀。

接着是爬取公众号文章。这方面早已有人造好了轮子，也就是基于搜狗微信搜索的微信公众号爬虫接口：WechatSogou，在此感谢@Chyroc。

传送门：

https://github.com/Chyroc/WechatSogou

640?wx_fmt=png

也就是，我们不用自己造轮子，只需要调用API就好了。

wechatsogou 的使用很简单，先实例化一个WechatSogouAPI，便可以调用get_gzh_article_by_history()方法返回最近10篇文章，比如说要爬取“Alfred在纽西兰”的文章，便是：

ws_api = wechatsogou.WechatSogouAPI()
ws_api. get_gzh_article_by_history('Alfred在纽西兰')

这样便可以返回一个json文件，里面包含“Alfred在纽西兰”公众号的最近10篇文章。

640?wx_fmt=gif

这个轮子是不是嗖嗖的？

640?wx_fmt=png

可见，文章储存在“article”对应的列表里，相关的信息有标题（title）、摘要（abstract）、文章链接（content_url）、发表时间（datetime）、是否头条（main）、版权状况（copyright_stat）等。

这就是说，只要实例化一个WechatSogouAPI，然后遍历一下长长的公众号列表，便可以把所有公众号近期发表的文章爬取下来了。然后加一个时间过滤，便可获得一天以来发表的文章。

640?wx_fmt=gif

当然，作为一个贴心的男票，我还加上了头条文章过滤和原创文章过滤，默认把不是头条和不是原创的文章都过滤掉，并把它封装成一个function：

from datetime import *
import wechatsogou

# 文章爬取
def get_articles(headline=True, original=True, timedel=1, add_account=None):

with open('gzh.txt', 'r') as f:
accounts = [account.strip() for account in f.readlines()]
# add_account必须是一个list或None
if add_account is not None:
if isinstance(list, add_account):
accounts.extend(add_account)
with open('gzh.txt', 'w') as f:
for account in accounts:
f.write(account)
else:
print('add_account should be a list')

ws_api = wechatsogou.WechatSogouAPI(captcha_break_time=3)
articles = []
for account in accounts:
articles.extend(reformat(ws_api.get_gzh_article_by_history(account)))

# 时间过滤，只选取规定天数以内的
timestamp = int((datetime.now()-timedelta(days=timedel)).timestamp())
articles = [article for article in articles if article['datetime'] > timestamp]

# 头条文章过滤，是否选取头条文章，默认是
if headline:
articles = [article for article in articles if article['main'] == 1]

# 原创文章过滤，是否选取原创文章，默认是
if original:
articles = [article for article in articles if article['copyright_stat'] == 100]

return articles

# 为保存每篇文章的字典添加一个公众号来源
def reformat(data):
atcs = data.get('article')
if atcs is not None:
wechat_name = data.get('gzh')['wechat_name']
for article in atcs:
article['wechat_name'] = wechat_name
return atcs

存储为word文档

最后爬回来的文章是一个list，里面每个dict存放着每篇文章的信息。我们需要把这个list保存到word文档里面，并且以一个清晰的排版呈现出来。

这时候有一个叫python-docx的库，可以很方便的帮助我们来做这件事情。

传送门：

https://python-docx.readthedocs.io/

Python-docx的使用也很简单，实例化一个类，再通过add_headingd()的方法添加标题、add_paragraph()方法添加段落、add_picture()方法添加图片，便可以按照我们的想法进行排版。例如：

from docx import Document
from docx.shared import Inches

document = Document() # 实例化一个Document类
document.add_heading('这是一个标题', 0) # 添加标题
document.add_paragraph('这是一段话') # 添加段落
document.add_picture('一个图片.jpeg', width=Inches(1)) 添加图片