python电影评论的情感分析流浪地球_《流浪地球》影评分析（一）：使用Python爬取豆瓣影评...

最新推荐文章于 2023-02-01 12:00:52 发布

杨修之死

最新推荐文章于 2023-02-01 12:00:52 发布

阅读量2.6k

点赞数 1

文章标签： python电影评论的情感分析流浪地球

本文链接：https://blog.csdn.net/weixin_36444910/article/details/113673072

版权

本文介绍了使用Python的Selenium和BeautifulSoup库爬取并分析《流浪地球》豆瓣影评的步骤。首先，通过Selenium模拟浏览器登录获取数据，然后利用BeautifulSoup解析网页提取评论信息，最后使用Pandas保存数据。文章还提到了爬虫的基本流程和相关技巧，并分享了部分已爬取的影评数据。

摘要由CSDN通过智能技术生成

本文爬虫的步骤：

使用Selenium库的webdriver进行网页元素定位和信息获取；

使用BeautifulSoup库进行数据的提取；

使用Pandas库进行数据的存储。

后台回复python爬虫可获取PPT和影评数据。

《流浪地球》大年初一在内陆上映，也快一个月了。上映以来，票房一路高升。前几日，《流浪地球》已经超过40亿了，跃居中国电影票房总榜第二了。对于这部电影，好评也有，争议也有，微博上热点也是不断。本来之前就想自己用Python爬虫爬取一下豆瓣影评，再做做数据分析。不过这几天都没有来得及弄。这电影都要下了，我才来蹭这个热点，这个热度估计是蹭不上了。

这个周末主要写了一部分爬虫代码爬取了豆瓣影评，先在公众号上记录下来。下周如果有时间的话，会接着使用爬取到的影评数据，进行简单的数据处理和数据分析。

这部分Python爬虫主要使用了两个库，Selenium库和BeautifulSoup库。

在进行爬虫之前，需要先了解到几个概念，微信后台回复python爬虫，可获取到我一年多前学习爬虫时做的一份PPT分享(其实PPT比较简单，更具体的教程可自行百度)。目前爬虫程序还在继续，现在保存了60000条豆瓣影评数据，后台一并分享。

PPT截图

爬取的数据存储格式如下：

想更深入学习爬虫的，推荐一本入门教程：《Python网络数据采集》，内容详尽，而且简单易懂。

以下为爬虫的简单说明和代码。

其实一般的爬虫流程很简单：

1、发送http请求，获取网络源码

一般这一部分调用urllib.request库就好。由于本文爬取豆瓣影评数据要登录个人豆瓣账号，所以我改用Selenium库的webdriver来调用浏览器访问豆瓣网进行数据的抓取。注：在此之前，需要自行下载驱动webdriver。本文使用的浏览器是chrome，不同版本对应的webdriver可在以下网址下载：

http://chromedriver.storage.googleapis.com/index.html

或者

https://npm.taobao.org/mirrors/chromedriver

2、网页解析

对于网页解析，需要了解HTML这个概念，同时需要知道：标签(Tag)、属性(Attribute)。使用Python进行页面解析和数据提取࿰

最低0.47元/天解锁文章

杨修之死

关注

1
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
python电影评论的情感分析流浪地球_《流浪地球》影评分析（一）：使用Python爬取豆瓣影评...

本文爬虫的步骤：使用Selenium库的webdriver进行网页元素定位和信息获取；使用BeautifulSoup库进行数据的提取；使用Pandas库进行数据的存储。后台回复python爬虫可获取PPT和影评数据。《流浪地球》大年初一在内陆上映，也快一个月了。上映以来，票房一路高升。前几日，《流浪地球》已经超过40亿了，跃居中国电影票房总榜第二了。对于这部电影，好评也有，争议也有，微博上热点也是...
复制链接

扫一扫