一、爬取豆瓣影评
基本思路:先获取每个电影的评论区链接,然后依次进入其评论区爬取评论。选取10部电影,每部200条评论。
用到的包为:BeautifulSoup,urllib
这里选取的链接为:豆瓣电影,打开后内容如下:
直接审查元素,找到每部电影的标签位置,如下图:
因此,找到此标签的代码为:
lists = bsobj.find('ul', {'class': 'lists'}).findAll('li', {'class': 'list-item'})
其中bsobj是该网页的bs对象。
接下来我们需要找到这部电影短评的链接,如下: