python电影数据分析报告_电影数据可视化项目分析报告

代码部分

导入模块

这里除了基础模块意外,主要介绍可视化模块即matplotlib和seaborn。matplotlib是常用的数据可视化模块,主要是做散点图,线形图和柱状图等。seaborn主要做热图,这篇文章(机器学习之泰坦尼克号存活预测)中的相关性的可视化。

import json

import pandas as pd

import numpy as np

#数据可视化

import matplotlib.pyplot as plt

import plotly.offline as pyo #用不好,运行没有效果放到最后待后续解决

import seaborn as sns

%matplotlib inline

from wordcloud import WordCloud

导入数据

这里导入的数据是由Kaggle提供的TMDB的5000部电影相关信息,在编码的时候为了后边处理方便我们将时间的格式进行了处理,并删除了无用的和重复的信息。

credits_file = '.../tmdb_5000_credits.csv'

movies_file = '.../tmdb_5000_movies.csv'

credits = pd.read_csv(credits_file, encoding='utf-8')

movies = pd.read_csv(movies_file, parse_dates=['release_date'])

#删除无用信息

full.drop('status',axis=1,inplace=True)

full.drop('tagline',axis=1,inplace=True)

full.drop('overview',axis=1,inplace=True)

填补缺失值

因为数据比较完整,所以仅针对其运行时间进行填补即可。这里我直接查找了两部电影的播放时长,

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值