python分析各因素之间的相关性

目录

相关系数矩阵

热力图


电影信息的各个属性(字段)之间存在相关性,选取budget,popularity,release_date,revenue,runtime,status,vote_average,vote_count字段作为分析对象 

相关系数矩阵

每个子图都是每个维度和其他某个维度的相关关系图,这其中主对角线上的图,则是每个维度的数据分布直方图。其中可以看出各因素间相关性强弱的大小。

其中与评分相关性较强的因素有电影的popularity(流行度),runtime(电影时长),vote_count(影评人数) ,revenue(电影收益)。

 代码部分:

使用 Pandas 库中的 read_csv() 方法读取名为 "data_mo.csv" 的 CSV 文件,并将其储存在一个名为 data_m 的 Pandas DataFrame 对象中。最后,使用 data_m 变量打印 DataFrame 中的所有数据。

import pandas as pd 
data_m=pd.read_csv("data/项目一/data_mo.csv")
data_m

使用 Pandas 库中的 DataFrame 对象 data_m,通过选取包含在列表 ["budget","popularity","release_date","revenue","runtime","status","vote_average","vote_count"] 中的列来创建一个新的 DataFrame 对象 data_corr。这些列包含了与数据集中电影预算、流行度、上映日期、收入、片长、状态、评分和投票次数相关的信息。最后,使用 data_corr 变量打印新 DataFrame 对象中的所有数据。这段代码可以用于对数据集中的特定变量进行探索性数据分析(EDA)和相关性分析 

data_corr=data_m[["budget","popularity","release_date","revenue","runtime","status","vote_average","vote_count"]]

data_corr

对年份字段进行切分 ,保留年份信息进行后续的分析

# 保留年份
data_corr.release_date=data_corr.release_date.str.split("-",expand=True)[0]
data_corr.release_date=data_corr.release_date.astype(int)

 # 每个子图都是每个维度和其他某个维度的相关关系图,这其中主对角线上的图,则是每个维度的数据分布直方图。
# 而第二行代码是画出同样的图形,但却以vote_average这个维度的数据为标准,来对各个数据点进行着色,其结果如图所示。
# 从图中可以看出,vote_average这列数据共10个不同的数值,每个数值一种颜色,所以生成的图是彩色的

import seaborn as sns

sns.pairplot(data_corr)
sns.pairplot(data_corr , hue ='vote_average')

# 每个子图都是每个维度和其他某个维度的相关关系图,这其中主对角线上的图,则是每个维度的数据分布直方图。
# 而第二行代码是画出同样的图形,但却以vote_average这个维度的数据为标准,来对各个数据点进行着色,其结果如图所示。
# 从图中可以看出,vote_average这列数据共10个不同的数值,每个数值一种颜色,所以生成的图是彩色的
 

热力图

通过相关系数矩阵与热力图分析各个字段间的相关性,各个字段间的相关系数在表中都呈现了强弱不同的关系

import matplotlib.pyplot as plt
figure, ax = plt.subplots(figsize=(12, 12))
sns.heatmap(data_corr.corr(), square=True, annot=True, ax=ax)

 通过热力图可以看到电影的popularity,runtime,vote_count,revenue与电影的评分vote_average存在较强的相关性与budget,release_datet相关性较弱

  • 0
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值