WechatScraper ——基于搜狗搜索的微信公众号爬虫

最近公司有这方面需求,在网上找了一些爬虫,使用了一段时间之后发现很多没解决验证码和cookie这两个很头疼的问题。

于是想到了PhantomJS和webdriver,Headless浏览器,虽然PhantomJS看不到显示界面,但其实就是在一个浏览器内核中运行,这免去了很多麻烦事。

最初试了Firefox,验证码出现的几率几乎降到了0,文章列表基本上跟真浏览器访问无差,后来移植到centos上,但因为centos上装firefox还是比较麻烦,于是改用了PhantomJS,但测试发现PhantomJS的抓取效果很一般,经常关键词抓错,暂时不知道原因,但效果类似于将中文字符去掉,英文关键词抓取是没有问题的,还望有经验的人士解答。

本着方便的原则,简单封装了几个操作MySQL方法,可以直接将数据存到MySQL里面,sql文件夹下面的两个文件分别是文章和公众号的表格创建文件,连接MySQL之后直接输入source,然后把文件拖到命令行就行了。

配置文件可以自己修改,也可以自己在创建实例的时候输入config。

暂时使用的PhantomJS,需要安装不少东西,有时间写个安装教程。

main.py是测试文件,里面写了两个测试用例,可以在安装好东西之后运行一下。

项目地址是WickedDogg/WecharScraper,欢迎提issue,fork和star。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值