本章内容: 用Python预处理豆瓣电影数据,并使用Gephi做关系网络图表可视化。
Python数据预处理
将数据中导演与演员的关系整理出来,得到导演与演员的关系数据,并统计合作次数。
import pandas as pd
import warnings
warnings.filterwarnings('ignore') # 不发出警告
# 读取数据
import os
os.chdir('C:/Users/HP/Desktop/')
df = pd.read_excel('豆瓣电影数据.xlsx',sheetname=0,header=0)
print('数据总共%i条' % len(df))
print('数据字段为:\n',df.columns.tolist())
df.head() # 查看数据
# 数据清洗
data = df[['name','导演','主演']]
print(data.head(2)) # 查看数据
data.dropna(inplace=True) # 删除缺失值
data_yy = data['主演'].str.split('/ ', expand=True)
col_len1 = len(data_yy.columns)
data_yy.columns = ['yy'+str(i) for i in range(col_len1)]
print(data_yy.head(2))
# 演员数据分列
data_dy = data['导演'].str.split('/ ', expand=True)
col_len2 = len(data_dy.columns)
data_dy.columns = ['dy&