java爬取网页cookie_python 爬虫实战四：用 selenium 爬取知乎某一问题下所有回答

最新推荐文章于 2023-12-11 11:27:23 发布

weixin_39732991

最新推荐文章于 2023-12-11 11:27:23 发布

阅读量115

点赞数

文章标签： java爬取网页cookie

本文使用 Zhihu On VSCode 创作并发布

前言

最近我又重新拾起了爬虫，想实现一下前几次爬虫所没有涉及到的两个点：模拟登录和动态网页爬取，所采用的方法是利用 selenium 这个库，例子是爬取知乎某一问题下所有回答。

模拟登录

很多网站，比如知乎、微博、豆瓣，都需要登录之后，才能浏览某些内容。所以想要爬取这类网站，必须先模拟登录。比较简单的方式是利用这个网站的 cookie。cookie 相当于是一个密码箱，里面储存了用户在该网站的基本信息。在一次登录之后，网站会记住你的信息，把它放到cookie里，方便下次自动登录。所以，要爬取这类网站的策略是：先进行一次手动登录，获取cookie，然后再次登录时，调用上一次登录得到的cookie，实现自动登录。

代码如下：（参考微笑的AK-47：原内容）

# 得到登录的cookie

动态爬取

在爬取知乎某个问题的时候，需要将滑动鼠标滚轮到底部，以显示新的回答。静态的爬取方法无法做到这一点，可以引入selenium库来解决这一问题。selenium库模拟人浏览网站、进行操作，简单易懂。附上官方文档和中文教程。
代码如下：

# 爬取某问题下的所有答案

完整代码

# -*- coding: utf-8 -*-

效果展示

更改上述代码中的路径位置和想要爬取的问题，然后点击运行。

控制台里按回车

然后不要动！！！静观其变。最终结果如下：

weixin_39732991

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。