最近网抑云很火,就想爬取上面热门的评论,也遇到不少问题,记录一下。
1.网站是javascript动态加载页面,直接用request爬取不到数据
上网查了许多信息,用request也可以获取到数据,比较复杂,有兴趣可以看下面一位大佬的分析。网易云音乐评论爬虫 params encSecKey逆向分析
还有就是使用Selenium,网上对 Selenium的介绍:
Selenium是一个 自动化测试工具,利用它可以驱动浏览器执行特定的动作,如点击、下拉等操作, 同时还可以获取浏览器当前呈现的页面的源代码,做到可见即可爬。
2.爬取规则
虽然可以爬取到数据,爬取到很多冷门的歌曲,有的甚至连评论都没有,是不是直接爬取热门歌曲会更好?
3.Selenium效率慢
本来想把网易上面所有歌的精彩评论都爬取,很遗