豆瓣影评爬虫
今天要爬取https://movie.douban.com/review/best/?start=0该网址的30条最受欢迎影评。
我们可以看到影评比较长,需要展开才能完整显示。但是在网页源码中是没有显示完整影评的。所以我们考虑到这部分应该是异步加载的方式显示。所以打开网页的开发者选项,可以看到点击展开之后,多了一条full的网页。这个网页就包含了完整评论。
我们观察到全部评论所在的网址为https://movie.douban.com/j/review/9593388/full,其中9593388是对应的评论ID,评论ID在第一张图片所在的网页源码里面有。所以我们的流程大题分为以下几步:
- 获取索引页https: