Python爬取猫眼电影《飞驰人生》47858万条评论并对其进行数据分析

2301_79987255

于 2024-04-01 14:50:26 发布

阅读量897

点赞数 16

分类专栏： 2024年程序员学习文章标签： python 数据分析服务器

本文链接：https://blog.csdn.net/2301_79987255/article/details/137233163

版权

2024年程序员学习专栏收录该内容

186 篇文章 0 订阅

订阅专栏

在这里插入图片描述

数据清洗

拿到数据除了做词云用了Python（代码在最后），其他的内容Excel分分钟解决，这里尤其感谢发明“数据透视表”的兄弟。

数据分析

1.观众信息

在这里插入图片描述

男女比例各占一半，男的对赛车这类刺激性东西感兴趣可以理解，这女观众都是为了啥？为了黄景瑜小哥哥的脸？还是像我一样冲着阿信来的？这里信息太少，我只做少量胡思乱猜。

在这里插入图片描述

用户等级又是类似于正态分布的形状，巧的嘞……其中0分和1分的用户（可以认定为新注册用户）仅占9.78%，可以看出评分的人中水军是很少的，基本都是猫眼老用户。

再看看4天用户评价数量的变化：

在这里插入图片描述

基本可得这部电影热度呈现缓慢下降的趋势（但是由于数据的不完整性，不能绝对说明）

那用户都喜欢在什么时间评论呢？对比看四天的评论hour数据：

在这里插入图片描述

如果大家习惯看完电影马上评价的话，那么从评论趋势来看，从中午12点之后评论数逐渐增加，推测是由于早上10点左右那场电影的结束。随后评论数不断增加，在晚饭前的5、6点和睡觉前的23点左右达到小高峰。

嗯，非常符合大家“醒了看电影，看完吃饭，吃了再看，看了再睡‘的“节假日生活作息”。

2.评分情况

在这里插入图片描述

按照我爬取的数据我们看到超过一半（52.37%）的观众给这部电影打了满分10分，极少量用户评分在6分以下（仅占7.58%）。根据我爬取的数据，计算所得平均分是8.725，和实时显示的分数8.8相差不大。

在这里插入图片描述

除了从宏观角度看评分，我们来瞧瞧评论者性别和评论时间与最终评分有什么不能说的秘密？

在这里插入图片描述

性别的不同并没有造成评分很大的区别，男观众和女观众的评分平均分仅仅相差0.35分，“未知性别”人群的评分在两者之间，基本等于男性评分8.53和女性评分8.88的的平均值（8.71）。嗯，我很有理由怀疑“未知人群”中男女比例也各占一半！

在这里插入图片描述

从评分时间和评分的关系来看，低分一般出现在0点到7点之间，我猜吧，大概是在这种夜深人静的时候，大家的情绪容易有大起大落，白天看完电影时的兴奋已经退去，留下的只有深深的思考，或许还带点批判性，吧。

3.评论内容

先看看点赞数最高的5条评论。

在这里插入图片描述

我们发现前5条评论评分均为10分：其中第一条，emmm，与电影无关，暂时跳过……其他几条都是赞美韩寒、沈腾和黄景瑜的。

那通过词云具体看一下评论内容：

在这里插入图片描述

不成熟的代码

from bs4 import BeautifulSoup

import requests

import warnings

import re

from datetime import datetime

import json

import random

import time

import datetime

headers = {

‘User-Agent’: ‘Mozilla/5.0 (iPhone; CPU iPhone OS 11_0 like Mac OS X) AppleWebKit/604.1.38 (KHTML, like Gecko) Version/11.0 Mobile/15A372 Safari/604.1’,

‘Connection’:‘keep-alive’}

cookies={‘cookie’:‘_lxsdk_cuid=168c325f322c8-0156d0257eb33d-10326653-13c680-168c325f323c8; uuid_n_v=v1; iuuid=30E9F9E02A1911E9947B6716B6E91453A6754AA9248F40F39FBA1FD0A2AD9B42; webp=true; ci=191%2C%E5%8F%B0%E5%B7%9E; _lx_utm=utm_source%3DBaidu%26utm_medium%3Dorganic; __mta=49658649.1549462270794.1549465778684.1549548206227.3; _lxsdk=30E9F9E02A1911E9947B6716B6E91453A6754AA9248F40F39FBA1FD0A2AD9B42; _lxsdk_s=168c898414e-035-f0e-e6%7C%7C463’}

#url设置offset偏移量为0

url = ‘http://m.maoyan.com/review/v2/comments.json?movieId=1218091&userId=-1&offset=0&limit=15&ts={}&type=3’

comment=[]

nick=[]

score=[]

comment_time=[]

gender=[]

userlevel=[]

userid=[]

upcount=[]

replycount=[]

ji=1

url_time=url_time=int(time.time())*1000#获取当前时间（单位是毫秒，所以要✖️1000）

for i in range(2000):

value=15*i

url_range=url.format(url_time)

res=requests.get(url_range,headers=headers,cookies=cookies,timeout=10)

res.encoding=‘utf-8’

print(‘正在爬取第’+str(ji)+‘页’)

content=json.loads(res.text,encoding=‘utf-8’)

list_=content[‘data’][‘comments’]

count=0

for item in list_:

comment.append(item[‘content’])

自我介绍一下，小编13年上海交大毕业，曾经在小公司待过，也去过华为、OPPO等大厂，18年进入阿里一直到现在。

深知大多数Python工程师，想要提升技能，往往是自己摸索成长或者是报班学习，但对于培训机构动则几千的学费，着实压力不小。自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年Python开发全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友，同时减轻大家的负担。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，基本涵盖了95%以上Python开发知识点，真正体系化！

由于文件比较大，这里只是将部分目录大纲截图出来，每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频，并且后续会持续更新

如果你觉得这些内容对你有帮助，可以添加V获取：vip1024c （备注Python）

最后

🍅 硬核资料：关注即可领取PPT模板、简历模板、行业经典书籍PDF。
🍅 技术互助：技术群大佬指点迷津，你的问题可能不是问题，求资源在群里喊一声。
🍅 面试题库：由技术群里的小伙伴们共同投稿，热乎的大厂面试真题，持续更新中。
🍅 知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。

*：关注即可领取PPT模板、简历模板、行业经典书籍PDF。

🍅 技术互助：技术群大佬指点迷津，你的问题可能不是问题，求资源在群里喊一声。
🍅 面试题库：由技术群里的小伙伴们共同投稿，热乎的大厂面试真题，持续更新中。
🍅 知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。

2301_79987255

关注

16
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
Python爬取猫眼电影《飞驰人生》47858万条评论并对其进行数据分析

🍅 硬核资料：关注即可领取PPT模板、简历模板、行业经典书籍PDF。🍅 技术互助：技术群大佬指点迷津，你的问题可能不是问题，求资源在群里喊一声。🍅 面试题库：由技术群里的小伙伴们共同投稿，热乎的大厂面试真题，持续更新中。🍅 知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。*：关注即可领取PPT模板、简历模板、行业经典书籍PDF。🍅 技术互助：技术群大佬指点迷津，你的问题可能不是问题，求资源在群里喊一声。🍅 面试题库。
复制链接

扫一扫