代码部分
导入模块
这里除了基础模块意外,主要介绍可视化模块即matplotlib和seaborn。matplotlib是常用的数据可视化模块,主要是做散点图,线形图和柱状图等。seaborn主要做热图,这篇文章(机器学习之泰坦尼克号存活预测)中的相关性的可视化。
import json
import pandas as pd
import numpy as np
#数据可视化
import matplotlib.pyplot as plt
import plotly.offline as pyo #用不好,运行没有效果放到最后待后续解决
import seaborn as sns
%matplotlib inline
from wordcloud import WordCloud
导入数据
这里导入的数据是由Kaggle提供的TMDB的5000部电影相关信息,在编码的时候为了后边处理方便我们将时间的格式进行了处理,并删除了无用的和重复的信息。
credits_file = '.../tmdb_5000_credits.csv'
movies_file = '.../tmdb_5000_movies.csv'
credits = pd.read_csv(credits_file, encoding='utf-8')
movies = pd.read_csv(movies_file, parse_dates=['release_date'])
#删除无用信息
full.drop('status',axis=1,inplace=True)
full.drop('tagline',axis=1,inplace=True)
full.drop('overview',axis=1,inplace=True)
填补缺失值
因为数据比较完整,所以仅针对其运行时间进行填补即可。这里我直接查找了两部电影的播放时长,