爬虫新手,第一次写博客。
目前正在实习,最近领导给了我一个excel表格,里面有3000+微信公众号的名字,微信号,让我把他们的头像全部爬下来。
之后打算让我爬阅读量点赞量那些,有点头疼。
现在电脑正在自动爬,闲来无事,写个博客玩玩~
1.我用的python 3.x
2.写代码工具:Notepad++,不得不吐槽一下python的tab和空格之间的关系总是让我很头疼,但还好Notepad++可以自动转换
3.我是从搜狗上爬头像的,这个比较简单,至于阅读量点赞量那些现在不能在搜狗上爬了,文章也只能获取最近十篇。微信反爬做的还挺到位,想反反爬真的不是一般人能做到。
写代码前需要知道这些事~:
1.搜狗搜索微信界面如下:
2.搜狗搜索公众号的链接都是:“http://weixin.sogou.com/weixin?type=1&query=XXX&ie=utf8&s_from=input&_sug_=n&_sug_type_=”,