这篇应该早就写的,该程序已实际运行了一段时间。
主要模块(网络爬虫+微信交互)
1、网络爬虫毫无疑问是本项目的核心,由于定位搜集p2p的负面信息,我们尝试了三个目标源(百度、网贷之家、网贷天眼)
核心策略 平台名称+负面关键字
负面关键字可以后台实施维护,平台名称需要用户在微信公众号内输入
(1)爬虫头信息的伪装
_send_headers = {
'Host':'www.wdzj.com',
'User-Agent':'Mozilla/5.0 (Windows NT 6.2; rv:16.0) Gecko/20100101 Firefox/16.0',
'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
'Connection':'keep-alive'
(2)BeautifulSoup解析返回的页面
<