Python爬取你好李焕英豆瓣短评生成词云

最新推荐文章于 2021-05-16 12:29:03 发布

BugMiaowu2021

最新推荐文章于 2021-05-16 12:29:03 发布

阅读量2.6k

点赞数 19

分类专栏： # Python爬虫文章标签： python 爬虫

本文链接：https://blog.csdn.net/m0_46278037/article/details/113977400

版权

本文介绍了如何使用Python爬虫抓取《你好，李焕英》电影的豆瓣短评，并通过WordCloud生成词云进行分析。爬取过程涉及识别评论的HTML结构，提取短评内容，并提供了完整代码示例。

摘要由CSDN通过智能技术生成

爬取过程：

你好，李焕英短评的URL：

https://movie.douban.com/subject/34841067/comments?start=20&limit=20&status=P&sort=new_score

在这里插入图片描述
分析要爬取的URL;
34841067：电影ID
start=20：开始页面
limit=20：每页评论条数

代码：

url = 'https://movie.douban.com/subject/%s/comments?start=%s&limit=20&sort=new_score&status=P % (movie_id, (i - 1) * 20)

在谷歌浏览器中按F12进入开发者调试模式，查看源代码，找到短评的代码位置，查看位于哪个div，哪个标签下：
在这里插入图片描述
可以看到评论在div[id=‘comments’]下的div[class=‘comment-item’]中的第一个span[class=‘short’]中，使用正则表达式提取短评内容，即代码为：

url = 'https://movie.douban.com/subject/%s/comments?start=%s&limit=20&sort=new_score&status=P' \
                  % (movie_id, (i - 1) * 20)

            req = requests.get(url, headers=headers)
            req.encoding = 'utf-8'
            comments = re.findall('<span class="short">(.*)</span>', req.text)