python电影数据分析报告_电影数据可视化项目分析报告

最新推荐文章于 2024-06-15 00:34:10 发布

weixin_39715538

最新推荐文章于 2024-06-15 00:34:10 发布

阅读量2.9k

点赞数

文章标签： python电影数据分析报告

代码部分

导入模块

这里除了基础模块意外，主要介绍可视化模块即matplotlib和seaborn。matplotlib是常用的数据可视化模块，主要是做散点图，线形图和柱状图等。seaborn主要做热图，这篇文章(机器学习之泰坦尼克号存活预测)中的相关性的可视化。

import json

import pandas as pd

import numpy as np

#数据可视化

import matplotlib.pyplot as plt

import plotly.offline as pyo #用不好，运行没有效果放到最后待后续解决

import seaborn as sns

%matplotlib inline

from wordcloud import WordCloud

导入数据

这里导入的数据是由Kaggle提供的TMDB的5000部电影相关信息，在编码的时候为了后边处理方便我们将时间的格式进行了处理，并删除了无用的和重复的信息。

credits_file = '.../tmdb_5000_credits.csv'

movies_file = '.../tmdb_5000_movies.csv'

credits = pd.read_csv(credits_file, encoding='utf-8')

movies = pd.read_csv(movies_file, parse_dates=['release_date'])

#删除无用信息

full.drop('status',axis=1,inplace=True)

full.drop('tagline',axis=1,inplace=True)

full.drop('overview',axis=1,inplace=True)

填补缺失值

因为数据比较完整，所以仅针对其运行时间进行填补即可。这里我直接查找了两部电影的播放时长，

最低0.47元/天解锁文章

weixin_39715538

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
python电影数据分析报告_电影数据可视化项目分析报告

代码部分导入模块这里除了基础模块意外，主要介绍可视化模块即matplotlib和seaborn。matplotlib是常用的数据可视化模块，主要是做散点图，线形图和柱状图等。seaborn主要做热图，这篇文章(机器学习之泰坦尼克号存活预测)中的相关性的可视化。import jsonimport pandas as pdimport numpy as np#数据可视化import matplotli...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。