数据分析-豆瓣电影Top250

豆瓣Top250电影python数据分析

  1. 使用python爬虫获取豆瓣电影数据
  2. 清洗和处理数据
  3. 使用方差、皮尔斯相关系数分析,plot进行数据可视化分析
python爬虫爬取豆瓣电影数据

首先,我们百度搜索豆瓣电影250,排名第一的就是我们想要的,点击进去。下面分别是首页和详细页
在这里插入图片描述
在这里插入图片描述

由于我们需要爬去所有有价值的数据,所以,我们要进入每一个详情页进行数据提取,下面是我打算获取的数据:

导演、编剧、主演、类型、制作地区、语言、上映时间、片长、评分、评价人数、观看人数、想看人数、短评条数

具体如何找数据的位置,如何爬取数据详细的步骤大家可以看我之前爬起虎扑贴吧的博客

这里我的思路是:

  1. 获取每一部电影的详情页地址,并将其存储到csv文件中
  2. 读取csv文件中的地址,并一一进行数据爬取。
  3. 将爬取的数据存储到csv文件中,方便之后进行数据分析。

这里有几点需要注意的地方:

  • 在你进行多次数据爬取后,豆瓣会进行ip限制,所以这时候你需要登录你的豆瓣账号,这里也就是使用cookie模拟登录。
  • 大家可以采用多线程或多进程进行数据爬取,速度会快很多。我这里没有使用这些
  • 在数据全部爬取完毕之后,我才将这些数据统一写入到文件中。但是一旦出现程序错误,比如没有找到某一个元素,程序就会报错,就前功尽弃了。所以 我们要加入异常处理。
数据清洗和相关处理

在这里插入图片描述

在这里插入图片描述

从上面两种图可以看到,出版时间和片长时间格式有点问题。所以,出版时间我只提取了年份,片长时间只保留数字。
在这里插入图片描述

当然,在我做完数据分析的时候,其实出版时间可以保留月份,用来分析哪些月份出版的电影最多等等,大家实战的时候可以试一下。

开始进行分析
  • 对出版国家的数量进行统计分析
    在这里插入图片描述
    在这里插入图片描述
    这里需要注意一下,很多电影都是好几个国家联合出版的。

从结果中我们发现,出版电影最多的前四名分别是

  1. 美国 138部,占比37.3%
  2. 日本 34部,占比9.19%
  3. 英国 33部,占比8.92%
  4. 中国香港 27部,占比7.3%

美国占比遥遥领先这个我们都不意外,毕竟像这些 《肖申克的救赎》、《阿甘正转》、《泰坦尼克号》都是我们非常喜欢也非常熟悉的经典电影。
日本排名第二得益于日本动漫的优势。在这个top250中,有许多日本动漫电影。我不是一个动漫迷,但是我周围有一些朋友是,平常偶尔也会看一下,也能够看得出来,日本动漫做的确实很好。

  • 对电影类型进行分析
    在这里插入图片描述

在这里插入图片描述
结果中,我们发现,电影类型最多的前四位是剧情爱情喜剧犯罪。电影类型最少的前四位是:情色灾难恐怖运动
与前面的出版国家情况类似,每一部电影都有许多类型。

博主也趁着疫情在家这一段时间,刷了几部这里面的电影。给我最大的感触就是我能够与情节产生共鸣。无论是《海上钢琴师》男主1900 碰见心动女生时的不知所措、开心、懊悔,还是《肖申克的救赎》安迪逃出监狱时的激动、咆哮;我们就像是电影里的角色,情感上就感觉特别的真实。

这个结果我们也不会有太大意外。

  • 对电影上映时间进行分析

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

从图1来看,出版电影最多的年份是2004年,其次是2010、2013、2015.

从图2的近31年出版电影数量分析结果来看,呈现一个山峰形状。也就是每隔一年,都会涌现出比较多的好电影。从2000之后,电影的数量相较于之前有了比较大的提升,也得益于电影行业在近二十年的快速发展,从业人数越来越多,每年上映的电影基数越来越多,好电影也会相应的越来越多。

从图3的饼状图分析结果来看,2000-2010年出版的电影所占的比例最大,其次是2010-2020年、1990-2000年。这里每隔十年进行分析,由于2020年刚开始,又受疫情影响,还没有很多电影上映,可能会造成近十年电影数量小于前一个十年。

  • 对电影时长进行分析
    在这里插入图片描述

在这里插入图片描述

从饼状图我们可以看到,电影时长集中在90分钟-140分钟的电影占6成,其次是集中在140分钟-180分钟的电影,占16.4%。这也符合我们平常的认知,大部分电影时长都是在一个半小时到两个小时左右。

从散点图我们可以看到,超过200分钟的电影共有4部,其中时长最长的是238分钟;最少时长的电影只有45分钟。从整体趋势来看,近些年的电影时长越来越集中在100分钟-150分钟这个区间内,这可能也是电影行业的共识吧,时间太短事情讲不清楚,时间太长有显得剧情太拖拉。(哈哈,自己猜测的😄)

另外,我对出版时间和电影时长进行皮尔斯相关系数分析,结果显示出版时间与电影时长呈负相关线性关系(也就是随着出版时间的增加,电影时长慢慢变短),但是影响程度比较弱。

  • 其他数据相关分析

电影评分相关数据分析表:

类型数据
均值8.879200
方差0.267307
最小值8.300000
25%8.700000
50%8.800000
75%9.100000
最大值9.700000

绝对多数电影评分集中在8.7-9.1中间,占比50%,最高评分为9.7,最低评分为8.3.
9.1评分以上的电影数量占比20%,8.7评分以下的电影占比25%.

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
上面3个图是用来分析评分与上映时间、电影时长的关系。从图中我们可以看到,1980年以下的电影,大多数评分都超过9.0,这也说明经典就是经典,只会随着时间流逝,更显得弥足珍贵。

由于上述图无法判断出好评与电影时长和评分的关系,接下来我们使用斯皮尔曼相关系数进行分析,评分与电影时长的pvalue为0.1667、评分与出版时间的pvalue为-0.1874,表明,评分与电影时长呈正相关,相关性不强,评分与出版时间呈负相关,相关性不强。这也证明了我们前面分析的,老电影通常评分都比较高。

在这里插入图片描述
将观看人数与想看人数以及评论人数进行对比分析,从上图可以看到,这三个数据的趋势基本一直。也就是这三者存在正相关线性关系,而且程度非常强。

接下来统计评论率(评论人数/观看人数)

类型数据
均值0.130242
方差0.045363
最小值0.043521
25%0.096739
50%0.129904
75%0.159457
最大值0.291848

从结果上来看,评论率最小的不到百分之5,也就是有100个人看过这个电影,只有五个人写了评论。平均值也就13%。评论率超过15.9%的只占25%。所以说,大家平常在豆瓣点击看过,评完分后,记得去写评论,为你喜欢的电影写下你额感受,让更多的人看到,这样也会感染更多的人。

原文链接:https://blog.csdn.net/lzx159951/article/details/104530793

爬虫(Web Crawler)是一种自动化程序,用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储,以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL可以通过链接分析、站点地图、搜索引擎等方式获取。 请求网页: 爬虫使用HTTP或其他协议向目标URL发起请求,获取网页的HTML内容。这通常通过HTTP请求库实现,如Python中的Requests库。 解析内容: 爬虫对获取的HTML进行解析,提取有用的信息。常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助爬虫定位和提取目标数据,如文本、图片、链接等。 数据存储: 爬虫将提取的数据存储到数据库、文件或其他存储介质中,以备后续分析或展示。常用的存储形式包括关系型数据库、NoSQL数据库、JSON文件等。 遵守规则: 为避免对网站造成过大负担或触发反爬虫机制,爬虫需要遵守网站的robots.txt协议,限制访问频率和深度,并模拟人类访问行为,如设置User-Agent。 反爬虫应对: 由于爬虫的存在,一些网站采取了反爬虫措施,如验证码、IP封锁等。爬虫工程师需要设计相应的策略来应对这些挑战。 爬虫在各个领域都有广泛的应用,包括搜索引擎索引、数据挖掘、价格监测、新闻聚合等。然而,使用爬虫需要遵守法律和伦理规范,尊重网站的使用政策,并确保对被访问网站的服务器负责。
### 回答1: Python数据分析可以帮助我们更加深入地了解豆瓣电影top250电影的一些规律和趋势。通过Python语言对数据进行挖掘,我们可以从中了解到一些有趣的结果。 首先,我们可以分析电影的类型,对某些类型进行数量上的排序,并对不同类型的电影进行比较。我们可以了解到哪些类型的电影豆瓣电影top250榜单上最受欢迎。 其次,我们还可以通过对电影评分的分析,看出哪些电影评分比较高,哪些电影评分比较低,并对中国观众更喜欢的评分区间进行分析。通过这些数据,我们可以了解到观众更加注重哪些方面,以及电影品质如何影响评分。 同时,对于豆瓣电影top250电影的上映时间进行分析,我们可以看出哪些时间段上映的电影更受欢迎,从而有针对性地对电影上映时间进行安排。 最后,我们还可以对不同导演、演员进行分析,找出豆瓣电影top250电影中最受欢迎的导演和演员,从中了解不同类型电影中观众的选择喜好。 总之,通过Python数据分析,我们可以更加深入地了解豆瓣电影top250榜单中电影的各种规律和趋势,从而为电影产业提供更有价值的信息支持。 ### 回答2: Python数据分析是一种将Python语言和数据分析技术结合起来的新型技能,它在很多领域都有着广泛的应用。其中,使用Python进行豆瓣电影Top250数据分析是其一个经典的示范。 豆瓣电影Top250是一份由豆瓣网汇总的评分最高的电影排行榜,其中涵盖了从各个国家和地区的不同类型的电影。Python数据分析可以让我们深入分析这份排行榜并了解每一部电影的评分、票房、出品公司等相关信息。 首先,我们使用Python的数据爬虫技术,获取豆瓣电影Top250的相关数据,例如电影名、导演、主演、上映时间等。接着,我们可使用Python的数据分析工具如NumPy、Pandas和Matplotlib等进行数据清洗和处理,将数据转化为适合分析的结构。 在绘制数据分布图的时候,使用Python的Matplotlib库绘制数据分布图像,可直观地查看豆瓣电影Top250中的电影评分分布、票房收益分布等情况。 对于豆瓣电影Top250的热门标签分析,我们可以使用Python的词频分析和词云技术。将所有电影的标签提取出来,统计词频,最终生成词云图像,帮助我们更加直观地看到Top250排行榜中电影的各种标签和元素。 总之,Python数据分析可以让我们更好的理解和了解豆瓣电影Top250中的信息和电影榜单,也提供了许多有价值的数据分析手段和思路。 ### 回答3: 豆瓣电影是一个非常受欢迎的电影评价平台,而豆瓣电影Top250是指用户对这些电影的评价排名前250名的电影。对于Python数据分析,我们可以采用豆瓣电影API接口将相关数据获取,然后对数据进行清洗与预处理,以便更好地进行分析。 首先,我们需要了解这些电影的基本信息,如电影名称、类别、产地、上映时间、导演、演员等等。可以利用Pandas库来读取豆瓣API的数据,并通过其他库例如Matplotlib或Seaborn等来可视化这些信息,以便更好地了解这些电影的基本情况。 其次,我们可以通过数据分析方法来了解豆瓣用户对这些电影的评价和偏好。可以利用Pandas的DataFrame进行数据清洗,并结合NumPy等库进行统计分析,如计算Top250电影中受欢迎的电影类型、制片国家、评分分布、评价人数分布等等。此外,还可以通过机器学习技术探索各个电影之间的关系,并进行预测和推荐等。 总之,通过Python数据分析方法来研究豆瓣电影Top250,可以让我们更好地了解这些电影的特点和受欢迎的原因,同时也可以探索用户对电影的评价和喜好,为后续业务分析和推荐提供参考。
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值