本发明涉及互联网通信技术领域,更具体地,涉及一种爬取微信公众号信息的方法。
背景技术:
目前,微信公众号中的内容的查看方式主要有两种:一种是通过搜狗微信的搜索功能查看公众号内容,一种是通过手机微信APP查看微信公众号内容。现有的微信公众号爬虫程序大多数是通过搜狗微信搜索微信公众号的方式爬取,效率低,而且搜狗微信搜索有反爬虫规则,获取到微信公众号内容有限,不能在短时间内获取大量的公众号内容。
技术实现要素:
本发明为克服上述现有技术所述的至少一种缺陷,提供一种爬取微信公众号信息的方法。
为解决上述技术问题,本发明的技术方案如下:
一种爬取微信公众号信息的方法,其特征在于,它包括以下步骤:
S1:确定待爬取公众号名称,将待爬取公众号的编号入库;
S2:依照预设的爬虫匹配规则,根据公众号名称爬取待爬取公众号,得到待爬取公众号的相关信息;
S3:将爬虫获取的待爬取公众号相关信息进行入库处理,处理后的待爬取公众号的相关信息入库;
S4:设置爬虫定时执行时间,根据待爬取公众号的相关信息定时爬取待爬取待爬取公众号文章,将爬虫获取的公众号文章入库;
S5:显示公众号文章。
进一步地,步骤S1具体包括以下两种情况:
S11:模糊匹配,即用户不清楚待爬取的公众号的准确名字,初步确定待爬取的