爬虫(七)通过Selenium爬取网易云音乐评论

本文介绍了如何利用Selenium绕过JavaScript反爬,解析并爬取网易云音乐的评论。首先,详细解释了Selenium工具的用途和在反爬策略中的优势。接着,指导了Selenium的环境配置,包括ChromeDriver的下载和设置。然后,通过分析网易云音乐评论页面的Ajax请求,展示了如何定位评论数据。最后,展示了使用Selenium进行动态页面交互的代码,并指出了Selenium在速度和资源消耗上的不足,建议在需要快速爬取大量数据时谨慎使用。

selenium相关介绍

Selenium是一个用于Web应用程序测试的工具,它直接运行在浏览器中,就像真正的用户在操作一样。至于它有什么样的作用,慢慢来说。
如果我们去写web应用,我们该怎么封锁别人的爬虫呢。 我们常用的反爬手段有通过校检headers字段来反爬、通过JavaScript来反爬、通过验证码来反爬、通过ip地址来反爬和加密反爬等手段。
通过headers字段反爬,这个非常容易解决,别人只需要把浏览器中headers字段复制到get请求里就能解决,是最容易被解决的反爬手段。
通过ip地址来反爬,通常构建一个代理ip池就可以解决。(构建代理ip池也是一门大学问,我们在之前构建的是一个非常非常简陋的ip池罢了)
通过验证码反爬,这个你调用别人写好的OCR接口,也是可以识别出来,难度不大。
JavaScript反爬。这个不仅需要你精通JS,而且还需要能看懂他们写的代码,更蛋疼的是这些代码通常都有几百几千行。解决这个问题的难度是非常大的。
加密反爬。这个就更难了,不仅要精通JS,还要懂密码学。
我们再来看看selenium,它是直接运行在浏览器里的,而我们所需要的数据一般都会被浏览器渲染在了页面上。那也就是说,我们可以通过selenium的特点可以跳过JS反爬和加密反爬。

selenium环境配置

首先是pip install selenium,安装selenium。我已经安装好了,就不重新安装了。
在这里插入图片描述
然后查看你谷歌浏览器的版本。
在这里插入图片描述
然后打开http://npm.taobao

评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值