Python爬取影评并进行情感分析和数据可视化

Python爬取影评并进行情感分析和数据可视化

一、引言

前几天出了《航海王:红发歌姬》等电影,我就立马看了,正好做一个爬取影评,想看看影评的好坏。这就离不开python爬虫和自然语言处理技术了。
这是一个小案例:包含python爬虫、数据预处理、自然语言处理、数据可视化等内容。下面我将详细这个小案例。

二、使用requests+BeautifulSoup进行影评的爬取

1、分析界面元素

我这里使用简单的bs4进行爬取。
找到影评所在的标签位置

<div>的类名为 comment 标签为 <span>类名为 short
在这里插入图片描述

2、编写代码

代码如下,在User-Agent中设置自己的请求头信息,并将某个电影url填入。

请求头信息获取:点击网络,再刷新一下页面,点击名称为comments?status=P,点击标头,在请求标头的最下方就能看到user-agent了。

获取影评评论内容的函数

def get_comment_content(comment):
    span = comment.find('span', class_='short')
    return span.get_text()

定义将评论内容保存到csv文件中

def save_to_csv(comments):
    with open('comments.csv', 'a', newline='', encoding='utf-8-sig') as csvfile:
        writer = csv.writer(csvfile)
        for comment in comments:
            content = get_comment_content(comment)
            writer.writerow([content])

主方法中调用上述函数并实现爬取与写入

url = '影评url地址'
#你的请求头信息
headers = {
    'User-Agent': 'Mozilla/5.0xxxxxxxxxxxxxxxxxxxx'}
while url:
    print('正在爬取:', url)
    response = requests.get(url, headers=headers)
    soup = BeautifulSoup(response.text, 'html.parser')
    comments = soup.find_all('div', class_='comment-item')
    save_to_csv(comments)
    time.sleep(1)

实现页面自动跳转的功能,这里加入了try来观察爬取不到的情况,并在结束时将url置空防止进入死循环。

    try:
        pagination = soup.find('div', class_='center').find('a', class_='next')
        print(pagination)
        if pagination:
            next_page = pagination['href']
            url = '影评url地址' + next_page
            print('跳转到下一页:', url)
            print('找到标签跳转')
        else:
            url = None
            print('无跳转')
    except:
        url = None
        print('没有找到,结束')
print('爬取完成!')

完整代码:

import requests
from bs4 import BeautifulSoup
import csv
import time


def get_comment_content(comment):
    span = comment.find('span', class_='short')
    return span.get_text()

def save_to_csv(comments):
    with open('comments.csv', 'a', newline='', encoding='utf-8-sig') as csvfile:
        writer = csv.writer(csvfile)
        for comment in comments:
            content = get_comment_content(comment)
            writer.writerow([content])

url = '影评url地址'
headers = {
    'User-Agent': 'Mozilla/5.0xxxxxxxxxxxxxxxxxxxx'}
while url:
    print('正在爬取:', url)
    response = requests.get(url, headers=headers)
    soup = BeautifulSoup(response.text, 'html.parser')
    comments = soup.find_all('div', class_='comment-item')
    save_to_csv(comments)
    time.sleep(1)
    try:
        #页面跳转的点击在div的id为paginator ,class为center中的a标签class为next
        pagination = soup.find('div', class_='center').find('a', class_='next')
        print(pagination)
        if pagination:
            next_page = pagination['href']
            url = '影评url地址' + next_page
            print('跳转到下一页:', url)
            print('找到标签跳转')
        else:
            url = None
            print('无跳转')
    except:
        url = None
        print('没有找到,结束')
print('爬取完成!')

最后将爬取到的评论信息进行保存。

尬住了,敷衍的打斗和过度的特效溢出屏幕的光污染。
这就是歌姬吧?
作为民工漫里最长寿的一部是有道理的,对粉丝来说这是一场蓄谋已久的狂欢,红发香克斯出演剧场电影本就不可多得,两代航海家在梦境内外完成了一种代际的交替也足够让人动容,热血和激情澎湃,贝波打call真的可爱极了。对非粉来说也没有观看难度,剧情对每一个出场的角色都有照顾,乌塔是香克斯的女儿自始至终都不会变,这是一次温柔的家庭和解,也是对银幕内外泛滥的负面情绪的一场救赎,乌塔想要创造一个没有苦难的世界,毫不意外最终是梦境一场,但一次完整的、有起有兴的ADO演唱会也能让人心头一软。
尾田这两年没少看女团吧
日本宅男文化還有救嗎 ファザコン蘿莉被ナルシスト裝帥大叔精神打擊變病嬌女idol 开场就说拯救世界的歌聲這個standard高的 結果一開嗓就想逃出影院 视觉听觉大脑受损本人 可以给你拔高一下说是讲娱乐至死 楚门的世界 然后 没了 这俩词就可以end of story 想煽情煽泪的地方皱眉+汗毛直竖save it plz!!!
ado个人演唱会
买red电影票送uta演唱会门票
缤纷的色彩,华丽的音符,仿佛在电影院听了一场Live演唱会,让人梦回大和歌姬时代,可如此美妙的歌声真的是无罪的吗?当音乐的魔法消失,有罪的歌姬和无辜的小女孩不过是阴谋的一体两面。你是愿意沉迷在甜美的歌声中死去,还是宁愿辛苦努力踏实过每一天?魔法音乐的这个哲思,要怎么回答才能安全地活下去
这是开了一场个人演唱会啊,我觉得这个很适合小朋友看,大人的话闭上眼睛听听音乐还是可以的,剧情几乎是为零。
好漫长又随意的一部剧场版,槽点真的有比隔壁柯南少吗……加各种强行的设定也一定要促成全员乱打的局面就真的跟柯南一定要爆炸很像了。当成精良的周年纪念音乐会来看,给一个三星吧。 对池田秀一的声音都要有阴影了,又是这种被过度神话的装逼人物。另外,中文字幕强行翻译成航海王就很真的很能让人意识到,到底为什么这些不偷不杀不作恶的人要自称“海贼”。每次看乌塔和路飞就“为什么要当海贼”鸡同鸭讲地吵起来时,都很想打断他们,“其实他只是想当巡游世界的夺宝奇兵啦”。

由于一些原因,我们只能爬取220条评论。这里我尝试过在220条之前更换请求头继续爬取,结果还是到220就停了。通过打印第220条下面的网页,也发现网址和网站内元素没有改动。

同样的,将电影更换也是这种情况,但也验证了将url更换为其他电影,我们的代码依旧能正常爬取。

电影《保你平安》影评

看这个电影最大的疑问,如果韩露真的是坐台女,她死后就可以被挖坟墓吗?
关于韩露如果真的是坐台小姐应不应该被挖出来这件事,开篇魏平安和墓地经理吵架已经给了创作者的表态。魏平安质问祁经理:坐台小姐怎么了,埋咱这的人不让有道德瑕疵?别老模糊重点了吧?真不知道是看不懂还是看不见。
之前在muji打工,遇到一个爸爸,一口气买了47支笔,开了发票,问我能不能在发票后面给他写这些笔购买于哪里。他说,他女儿班上同学丢了一支笔,号称家里人从日本买的,国内买不到,刚好他女儿之前在muji买了支一样的,班上同学都说是她偷的,爸爸想给女儿挣个公道!抹黑一个人很简单,一张模糊的图、一条朋友圈、一句话就够了,但是要证明一个人,真的太难了!善良的人,祝你平安!
立意很好,但只是浅浅摸到了边缘。一个女人要足够清白足够高尚才会被允许葬在男友旁边,本身这件事就很荒谬,通篇主角也只是为了帮她澄清谣言而奔走,从未想过女性是否可以挣脱这层枷锁。
腿上的胎记是女孩的软肋,乌有的传言是掘墓的铁铲。裤脚向下一寸遮不住审美的霸凌,棺椁移走一格破不掉信息的茧房。这时代多得是为流量胡说的嘴,因谣言蒙蔽的眼,却鲜有不凉的血和求真的心。冰可乐不凉热血,总抱怨直播间没人送出烟花。前方拦路的白马为不舍的爱牵线,江面盛放的烟花祝侠义的人平安。

三、情感分析

1、数据预处理

我们需要将我们所爬取的文件加一个简单的表头,方便我们接下来的操作

由于我们的文件只有一列数据,所以直接手动添加即可(使用记事本或者Excel)。

若需要批量添加表头,下面是代码.

with open('保你平安.csv', 'r',encoding='utf-8-sig') as f:
    reader = csv.reader(f)
    data = list(reader)

# 修改第一列
data[0][0] = 'comment'
data[1][0] = 'xxxx'

# 将其他数据向下移一个位置
for i in range(len(data)-1, 0, -1):
    data[i], data[i-1][1:] = [data[i-1][0]] + data[i][1:], data[i][1:]

# 写回文件
with open('保你平安.csv', 'w', newline='') as f:
    writer = csv.writer(f)
    writer.writerows(data)

我们选择保你平安做情感分析,因为航海王的评论中有很多是日语的,不方便进行分析。

2、情感分析

添加表头之后,我们使用 jieba对句子进行分词处理,并调用停用词来去除一些干扰词

import pandas as pd
import jieba
from textblob import TextBlob
import matplotlib.pyplot as plt

# 设置文件名
input_file = "保你平安.csv"
stopwords_file = "stopwords.txt"
output_file = "保你平安processed.csv"


# 读取停用词
with open(stopwords_file, 'r', encoding='utf-8') as f:
    stopwords = [line.strip() for line in f.readlines()]

# 定义分词函数
def cut(text):
    words = jieba.cut(text)
    return " ".join([word for word in words if word not in stopwords])

# 读取数据文件
data = pd.read_csv(input_file)

# 分词并写入新列
data['process'] = data['comment'].apply(lambda x: cut(str(x)))

并将处理好的句子写入第二列,表头为process。

使用textblob进行简单的情感分析,将情感分为正向和负向(好评与差评),分析出的结果中华,好评用1表示,差评用-1表示,将分析结果写入第三列sentiment中。

# 情感分析并写入新列
data['sentiment'] = data['process'].apply(lambda x: TextBlob(str(x)).sentiment.polarity)

# 写入新文件
data.to_csv(output_file, index=False)

3、数据可视化

最后我们将结果进行可视化,通过绘制饼图,来观察好评和差评所占的比例。

sentiment_counts = data['sentiment'].value_counts()
labels = ['Positive', 'Negative']
colors = ['#66c2a5', '#fc8d62']
explode = (.1, )
fig, ax = plt.subplots()
wedges, texts, autotexts = ax.pie(sentiment_counts, colors=colors, autopct='%1.1f%%', startangle=90, pctdistance=1.1,textprops=dict(color="b"))
ax.legend(wedges, labels, loc="center left", bbox_to_anchor=(1, 0, 0.5, 1))
ax.axis('equal')
plt.title("Sentiment Distribution")
plt.setp(autotexts, size=10, weight="bold")
plt.show()

如图发现这220条评论中,好评占比接近98%

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-fg76ZR3q-1686367774469)(C:\Users\Administrator\AppData\Roaming\Typora\typora-user-images\image-20230610095322989.png)]

完整代码:

import pandas as pd
import jieba
from textblob import TextBlob
import matplotlib.pyplot as plt

# 设置文件名
input_file = "保你平安.csv"
stopwords_file = "stopwords.txt"
output_file = "保你平安processed.csv"


# 读取停用词
with open(stopwords_file, 'r', encoding='utf-8') as f:
    stopwords = [line.strip() for line in f.readlines()]

# 定义分词函数
def cut(text):
    words = jieba.cut(text)
    return " ".join([word for word in words if word not in stopwords])

# 读取数据文件
data = pd.read_csv(input_file)

# 分词并写入新列
data['process'] = data['comment'].apply(lambda x: cut(str(x)))

# 情感分析并写入新列
data['sentiment'] = data['process'].apply(lambda x: TextBlob(str(x)).sentiment.polarity)

# 写入新文件
data.to_csv(output_file, index=False)

sentiment_counts = data['sentiment'].value_counts()
labels = ['Positive', 'Negative']
colors = ['#66c2a5', '#fc8d62']
explode = (.1, )
fig, ax = plt.subplots()
wedges, texts, autotexts = ax.pie(sentiment_counts, colors=colors, autopct='%1.1f%%', startangle=90, pctdistance=1.1,textprops=dict(color="b"))
ax.legend(wedges, labels, loc="center left", bbox_to_anchor=(1, 0, 0.5, 1))
ax.axis('equal')
plt.title("Sentiment Distribution")
plt.setp(autotexts, size=10, weight="bold")
plt.show()

在这里插入图片描述

  • 33
    点赞
  • 255
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 17
    评论
### 回答1: Python可以使用爬虫技术爬取豆瓣250部电影的数据,包括电影名称、评分、导演、演员等信息爬取数据后,可以使用数据可视化工具对数据进行分析和展示,例如使用matplotlib库绘制电影评分的分布图、使用wordcloud库生成电影名称的词云等。通过数据可视化分析,可以更直观地了解豆瓣250部电影的特点和趋势。 ### 回答2: Python是一种强大的编程语言,它拥有广泛的数据爬取能力。豆瓣是中国最靠谱的电影评价网站之一,拿到豆瓣电影250名单可以用于更多的数据挖掘和可视化。在这个项目中,我们使用Python爬取豆瓣电影250的数据,然后进行分析和可视化。 首先,我们需要安装Python的数据爬取库--爬虫(Web-Scraping)类库BeautifulSoup,我们可以通过pip安装该库,打开终端输入: ``` pip install beautifulsoup4 ``` BeautifulSoup主要用于解析HTML或XML文件,使更容易提取所需的数据。此外,还需要另一个库--Requests来获取网页内容。可以在终端中输入: ``` pip install requests ``` 接下来,我们可以定义爬取豆瓣电影250数据的类,我们需要从250的页面提取以下数据:电影名称,导演,演员,评分和评价数量: ```python import requests from bs4 import BeautifulSoup class DoubanSpider: def __init__(self): self.url = 'https://movie.douban.com/top250' self.headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.63 Safari/537.36'} self.movieList = [] def getHTML(self): response = requests.get(self.url, headers=self.headers) soup = BeautifulSoup(response.text, 'html.parser') return soup def getPageData(self): soup = self.getHTML() movieListSoup = soup.find('ol', class_='grid_view') for movieSoup in movieListSoup.find_all('li'): movieData = {} bd = movieSoup.find('div', class_='bd') movieData['name'] = bd.find('span', class_='title').text movieData['director'] = bd.find('p', class_='').text.split('\n')[1].strip().replace('导演: ', '') movieData['actors'] = bd.find('p', class_='').text.split('\n')[2].strip()[3:] movieData['rating'] = float(movieSoup.find('span', class_='rating_num').text) movieData['quote'] = movieSoup.find('span', class_='inq').text movieData['ratings_num'] = int(movieSoup.find('div', class_='star').find_all('span')[-1].text[:-3]) self.movieList.append(movieData) douban = DoubanSpider() douban.getPageData() ``` 在上述代码中,getHTML函数获取豆瓣电影250的页面内容,getPageData函数则解析页面,并提取所需数据。该函数通过BeautifulSoup从HTML中找到class属性为grid_view的第一个ol标签,它包含整个豆瓣电影250的列表。然后,使用find_all方法找到ol中所有list项(li标签)。在for循环中,我们获取每个电影的数据,将其添加到一个字典中,并将该字典添加到一个movieList列表中。 接下来,可以在Python中使用Pandas和Matplotlib等库对爬取到的数据进行分析和可视化。Pandas是处理和分析数据的库。Matplotlib图表库可用于在Python中创建各种图表,包括条形图,饼图,散点图等。 下面,我们绘制电影评分的直方图。我们首先将获取到的movieList传入pandas的DataFrame中,然后使用matplotlib中的pyplot库进行图表绘制。 ```python import pandas as pd import matplotlib.pyplot as plt movieDF = pd.DataFrame(douban.movieList) movieDF.to_csv('douban_movie.csv', index=None) print(movieDF.head()) plt.rcParams['font.sans-serif'] = ['Microsoft YaHei'] plt.hist(movieDF['rating'], bins=20) plt.xlabel('评分') plt.ylabel('电影数量') plt.title('豆瓣电影250评分分布') plt.show() ``` 在此代码中,我们使用pandas创建movieDF DataFrame并将其写入CSV文件。然后,我们使用Matplotlib绘制直方图,其中横坐标为评分,纵坐标为电影数量。 用同样的方法,我们可以对其他数据进行分析和可视化。 尽管不是所有数据都能通过审查获得,但是通过Python爬取技术和数据科学库,我们可以轻松地将数据集构建并绘制各种图表。 ### 回答3: python爬取豆瓣250部电影及数据可视化分析,可以帮助我们了解豆瓣用户对电影的评价和排名,对于电影爱好者和业内从业者都有很大的参考价值。这个项目包括两个部分,第一是爬取豆瓣电影250的数据,第二是通过数据可视化工具对电影数据进行分析和展示。 首先是爬取豆瓣电影250的数据。我们可以使用Python的requests库和BeautifulSoup库来进行网页爬取和数据抓取。首先,需要通过requests库请求豆瓣电影250的网页,然后通过BeautifulSoup库解析出需要的信息,比如电影的名称、评分、导演、演员、类型、上映日期等等,把这些信息存储到csv文件中或者数据库中。这个过程中需要注意反爬虫策略,比如能够增加间隔时间、伪装用户代理、使用代理IP等方式来避免IP被限制或者被封。 然后是通过数据可视化工具对电影数据进行分析和展示。我们可以使用Python数据可视化工具,比如Matplotlib、Seaborn、Plotly等来进行数据分析和展示。通过对数据进行可视化处理,可以更加直观的了解豆瓣电影排名的特点和规律。比如可以画出电影排名的柱状图、饼图、散点图等等,可以看出哪些导演、演员对电影的成功贡献最大,哪些类型的电影更受欢迎,哪些时间段上映的电影更容易受到用户的关注等等。此外,我们也可以使用python的文本分析库如nltk对电影的影评进行情感分析,通过情感变化折线图和词云图来展示用户评价的情感倾向。 总之,通过python爬取豆瓣250部电影及数据可视化分析,可以从多个方面来了解和分析电影排名的影响因素和规律,为业内从业者和电影爱好者提供更有价值的参考。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 17
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

天海一直在AI

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值