python 爬虫实战四：用 selenium 爬取知乎某一问题下所有回答

最新推荐文章于 2025-03-17 21:08:27 发布

晓炜

最新推荐文章于 2025-03-17 21:08:27 发布

阅读量2.5k

点赞数 4

分类专栏：爬虫文章标签： selenium python cookie xpath 爬虫

本文链接：https://blog.csdn.net/weixin_43084570/article/details/109402548

版权

本文介绍了使用Python的Selenium库进行模拟登录和动态爬取网页内容，以爬取知乎特定问题的所有回答为例，详细阐述了如何通过cookie实现模拟登录，并展示了如何处理滚动加载的内容。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言

最近我又重新拾起了爬虫，想实现一下前几次爬虫所没有涉及到的两个点：模拟登录和动态网页爬取，所采用的方法是利用 selenium 这个库，例子是爬取知乎某一问题下所有回答。

模拟登录

很多网站，比如知乎、微博、豆瓣，都需要登录之后，才能浏览某些内容。所以想要爬取这类网站，必须先模拟登录。比较简单的方式是利用这个网站的 cookie。cookie 相当于是一个密码箱，里面储存了用户在该网站的基本信息。在一次登录之后，网站会记住你的信息，把它放到cookie里，方便下次自动登录。所以，要爬取这类网站的策略是：先进行一次手动登录，获取cookie，然后再次登录时，调用上一次登录得到的cookie，实现自动登录。

代码如下：（参考微笑的AK-47：原内容）

# 得到登录的cookie
def login_cookie():
    driver = get_driver()    
    driver.set_page_load_timeout(20)
    driver.set_script_timeout(20)
    LOGIN_URL = 'https://www.zhihu.com/'
    driver.get(LOGIN_URL)
    time.sleep(5)
    input("请登录后按 Enter")
    cookies = driver.get_cookies()
    jsonCookies = json.dumps(cookies)
    #下面的文件位置需要自己改
    with open('C:/Users/zxw/Desktop/修身/与自己/数据分析/数据分析/爬虫/cookies/zhihu.txt','w') as f:
        f.write(jsonCookies)
    driver.quit()

# 再次登录
def login():    
    driver.set_page_load_timeout(20)
    driver.set_script_timeout(20)
    LOGIN_URL = 'https://www.zhihu.com/'
    driver.get(LOGIN_URL)
    time.sleep(5)
    #下面的文件位置需要自己改，与上面的改动一致
    f = open('C:/Users/zxw/Desktop/修身/与自己/数据分析/数据分析/爬虫/cookies/zhihu.txt')
    cookies = f.read()
    jsonCookies = json.loads(cookies)
    for co in jsonCookies

最低0.47元/天解锁文章