Python爬取唐人街探案3豆瓣短评并生成词云

最新推荐文章于 2023-11-23 11:50:49 发布

BugMiaowu2021

最新推荐文章于 2023-11-23 11:50:49 发布

阅读量1.4k

点赞数 5

分类专栏： # Python爬虫文章标签： python 爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_46278037/article/details/113965010

版权

本文介绍了如何使用Python爬取唐人街探案3在豆瓣上的短评，并通过jieba分词生成词云。在爬取过程中，解析网页源码找到评论内容的位置，然后利用正则表达式提取短评。生成的词云虽然炫酷，但需要进一步清洗无用词以获取有价值信息。

摘要由CSDN通过智能技术生成

在这里插入图片描述

爬取唐人街探案3短评过程

要爬取的URL：

https://movie.douban.com/subject/27619748/comments?start=20&limit=20&status=P&sort=new_score

在这里插入图片描述

url = 'https://movie.douban.com/subject/%s/comments?start=%s&limit=20&sort=new_score&status=P % (movie_id, (i - 1) * 20)

其中i代表当前页码，从0开始。

在谷歌浏览器中按F12进入开发者调试模式，查看源代码，找到短评的代码位置，查看位于哪个div，哪个标签下

在这里插入图片描述

分析源码

可以看到评论在div[id=‘comments’]下的div[class=‘comment-item’]中的第一个span[class=‘short’]中，使用正则表达式提取短评内容，即代码为：

url = 'https://movie.douban.com/subject/%s/comments?start=%s&limit=20&sort=new_score&status=P' \
                  % (movie_id, (i - 1) * 20)

            req = request

最低0.47元/天解锁文章

关注

5
点赞
踩
13

收藏

觉得还不错? 一键收藏
打赏
4
评论
Python爬取唐人街探案3豆瓣短评并生成词云

爬取唐人街探案3短评过程要爬取的URL：https://movie.douban.com/subject/27619748/comments?start=20&limit=20&status=P&sort=new_scoreurl = 'https://movie.douban.com/subject/%s/comments?start=%s&limit=20&sort=new_score&status=P % (movie_id, (i - 1)
复制链接

扫一扫

专栏目录

博客等级

码龄5年

217
原创

5481
点赞

1万+
收藏

1725
粉丝

关注

私信

热门文章

分类专栏

最新评论

Windows下载FFmpeg最新版（踩了一上午的坑终于成功）
呼啦啦拉拉拉: 下载超级慢，为什么
英文文献翻译神器SCITranslate V17--一键翻译整篇文献
2301_81305961: 请问os系统可以用吗，我下载了发现解压完点不开那个安装程序
英文文献翻译神器SCITranslate V17--一键翻译整篇文献
Kryst_63: 不是免费的要充值积分么
ERROR 1045 (28000): Access denied for user ‘root‘@‘localhost‘ (using password: NO)解决办法
颖颖怪: 救命啊
ERROR 1045 (28000): Access denied for user ‘root‘@‘localhost‘ (using password: NO)解决办法
颖颖怪: C:\Windows\system32>mysqld --console --skip-grant-tables --shared-memory 2024-06-18T03:29:09.811427Z 0 [System] [MY-010116] [Server] C:\Program Files\MySQL\MySQL Server 8.0\bin\mysqld.exe (mysqld 8.0.37) starting as process 4484 2024-06-18T03:29:09.819457Z 1 [System] [MY-013576] [InnoDB] InnoDB initialization has started. 2024-06-18T03:29:09.830300Z 1 [ERROR] [MY-012209] [InnoDB] Multiple files found for the same tablespace ID: 2024-06-18T03:29:09.830457Z 1 [ERROR] [MY-012202] [InnoDB] Tablespace ID: 1 = ['data\sys\sys_config.ibd', 'sys\sys_config.ibd'] 2024-06-18T03:29:09.830554Z 1 [ERROR] [MY-012202] [InnoDB] Tablespace ID: 4294967278 = ['data\undo_002', 'undo_002'] 2024-06-18T03:29:09.830634Z 1 [ERROR] [MY-012202] [InnoDB] Tablespace ID: 4294967279 = ['data\undo_001', 'undo_001'] 2024-06-18T03:29:09.830717Z 1 [ERROR] [MY-012202] [InnoDB] Tablespace ID: 4294967294 = ['data\mysql.ibd', 'mysql.ibd'] 2024-06-18T03:29:09.830811Z 1 [ERROR] [MY-012930] [InnoDB] Plugin initialization aborte

最新文章

目录

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

BugMiaowu2021 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。