美国总统竞选赞助数据分析
本文来自阿里云天池实验室,案例原地址
自学数据分析的小王同学借鉴一下,自己写一遍,分析一遍,自己做的代码和结果如下
1.导入相关的python数据分析的库
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
2.数据载入和总览
2.1由于单个数据太大,我们把数据源分成三个0-50w行,50-100W行,100w+行
#数据读取
data_01=pd.read_csv(r'H:\阿里云\2012美国总统竞选赞助数据分析\data_01.csv')
data_02=pd.read_csv(r'H:\阿里云\2012美国总统竞选赞助数据分析\data_02.csv')
data_03=pd.read_csv(r'H:\阿里云\2012美国总统竞选赞助数据分析\data_03.csv')
2.2数据展示:
data_01读取前五行完毕
data_02读取前五行完毕
data_03读取前五行完毕
2.3合并数据(data_01,data_02,data_03)
data=pd.concat([data_01,data_02,data_03])
data.head()
2.4查看数据的信息,包括每个字段的名称、非空数量、字段的数据类型
data.info()
我们可以看出,contbr_employer和contbr_occupation 这两列字段的数量少一点,说明这里面有空值
2.5查看数据的概要
data.describe()
2.6缺失值的处理
从data.info()中,我们可以看到contbr_employer,contbr_occupation均有少量的缺失值,我们用not provided填充
data['contbr_employer'].fillna('not provided',inplace=True)
data['contbr_occupation'].fillna('not provided',inplace=True)
2.7 缺失值的查看
data[data['contbr_employer'].isnull()]
data[data['contbr_occupation'].isnull()]
data.info()
可以看到,缺失值已经没有了
2.8查看数据中总统候选人都有谁
print('共有{}位候选人,分别是'.format(len(data['cand_nm'].unique())))
data['cand_nm'].unique()
2.9通过搜索引擎等途径,获取到每个总统候选人的所属党派,建立字典parties,候选人名字作为键,所属党派作为对应的值
parties = {
'Bachmann, Michelle': 'Republican',
'Cain, Herman': 'Republican',
'Gingrich, Newt': 'Republican',
'Huntsman, Jon': 'Republican',
'Johnson, Gary Earl': 'Republican',
'McCotter, Thaddeus G