本文使用 Zhihu On VSCode 创作并发布
前言
最近我又重新拾起了爬虫,想实现一下前几次爬虫所没有涉及到的两个点:模拟登录和动态网页爬取,所采用的方法是利用 selenium 这个库,例子是爬取知乎某一问题下所有回答。
模拟登录
很多网站,比如知乎、微博、豆瓣,都需要登录之后,才能浏览某些内容。所以想要爬取这类网站,必须先模拟登录。比较简单的方式是利用这个网站的 cookie。cookie 相当于是一个密码箱,里面储存了用户在该网站的基本信息。在一次登录之后,网站会记住你的信息,把它放到cookie里,方便下次自动登录。所以,要爬取这类网站的策略是:先进行一次手动登录,获取cookie,然后再次登录时,调用上一次登录得到的cookie,实现自动登录。
代码如下:(参考 微笑的AK-47:原内容)
# 得到登录的cookie
动态爬取
在爬取知乎某个问题的时候,需要将滑动鼠标滚轮到底部,以显示新的回答。静态的爬取方法无法做到这一点,可以引入selenium库来解决这一问题。selenium库模拟人浏览网站、进行操作,简单易懂。附上官方文档和中文教程。
代码如下:
# 爬取某问题下的所有答案
完整代码
# -*- coding: utf-8 -*-
效果展示
更改上述代码中的路径位置和想要爬取的问题,然后点击运行。
控制台里按回车
然后不要动!!!静观其变。最终结果如下: