关系网络图表可视化_Python数据预处理

本章内容: 用Python预处理豆瓣电影数据,并使用Gephi做关系网络图表可视化。

Python数据预处理

将数据中导演与演员的关系整理出来,得到导演与演员的关系数据,并统计合作次数。

import pandas as pd
import warnings
warnings.filterwarnings('ignore')  # 不发出警告

# 读取数据
import os
os.chdir('C:/Users/HP/Desktop/')
df = pd.read_excel('豆瓣电影数据.xlsx',sheetname=0,header=0)
print('数据总共%i条' % len(df))
print('数据字段为:\n',df.columns.tolist())
df.head() # 查看数据

# 数据清洗
data = df[['name','导演','主演']]
print(data.head(2)) # 查看数据

data.dropna(inplace=True)  # 删除缺失值

data_yy = data['主演'].str.split('/ ', expand=True)  
col_len1 = len(data_yy.columns)
data_yy.columns = ['yy'+str(i) for i in range(col_len1)]
print(data_yy.head(2))
# 演员数据分列

data_dy = data['导演'].str.split('/ ', expand=True) 
col_len2 = len(data_dy.columns)
data_dy.columns = ['dy&
  • 1
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值