Python爬虫:爬过这些网站,你才敢说自己会爬虫!
互联网上存在着各种各样的网页,各种网页的爬行策略和难度各不相同。至于要不要登录,有些简单的网站是不要登录的,比如猫眼影业,东方财富网等等。有些网站是要登录的,比如知乎,比如微信等等。这种网站的登录方式,要考虑到验证码和 js的加密参数,所以很难爬到。登录之后,需要花费大量的精力和时间,才能进入页面。
难道每个网站都要自己来实现吗,从效率上来说,完全没有必要,因为前面的人已经帮我们做好了。最近发现一个神库,汇总了数十个主流网站的模拟登陆方法:知乎微信网页版登录并获取好友列表BilibiliFacebook无需身份验证即可抓取Twitter前端API微博网页版QQZoneCSDN淘宝Baidu果壳JingDong 模拟登录163mail拉钩豆瓣Baidu2猎聘网Github爬取图虫相应的图片网易云音乐糗事百科这些网站基本采用的是直接登录或者 selenium+webdriver 方式。每一个网站都有完整的模拟登陆代码,拿来就可以用到自己的爬虫中。下面我们来测试一下。先说说很难爬的「知乎」,假如我们想爬取知乎主页的 HTML 内容,就必须要先登陆才能爬,不然看不到这个界面。下面来简单梳理一下流程。
顺利登录后就可以进入主页了。下面,我们用这个库提供的代码来模拟登陆,输出主页 HTML 内容作测试。操作很简单,只需要输入手机号、密码和验证码就可以了。
成功登陆后,接下来就可以做一些有意思的事了。比如曾有人爬取所有知乎账号的信息,分析了知乎用户群体画像。是不是有点意思。再来看看微信。用上面的微信代码可以把全部微信好友信息爬取下来,比如:昵称、性别、地域、个性签名。接着可以分析一下你的朋友圈是什么样的,应该会很有趣。
还可以爬 B 站:
还有很多实用有趣的内容,就不一个一个去罗列了!文章整理不易,还请各位大佬们多多支持~
关于Python的技术储备
在这里给大家分享一些免费的课程供大家学习,下面是课程里面的截图,扫描最下方的二维码就能全部领取。
1.Python所有方向的学习路线
2.学习软件
工欲善其事必先利其器。学习Python常用的开发软件都在这里了,给大家节省了很多时间。
3.学习资料
4.实战资料
实践是检验真理的唯一标准。这里的压缩包可以让你再闲暇之余帮你提升你的个人能力。
5.视频课程
好啦今天的分享就到这里结束了,快乐的时光总是短暂呢,想学习更多课程的小伙伴不要着急,有更多惊喜哦~