数据分析案例--2012美国总统竞选赞助数据分析

美国总统竞选赞助数据分析

本文来自阿里云天池实验室,案例原地址
自学数据分析的小王同学借鉴一下,自己写一遍,分析一遍,自己做的代码和结果如下
1.导入相关的python数据分析的库

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

2.数据载入和总览
2.1由于单个数据太大,我们把数据源分成三个0-50w行,50-100W行,100w+行

#数据读取
data_01=pd.read_csv(r'H:\阿里云\2012美国总统竞选赞助数据分析\data_01.csv')
data_02=pd.read_csv(r'H:\阿里云\2012美国总统竞选赞助数据分析\data_02.csv')
data_03=pd.read_csv(r'H:\阿里云\2012美国总统竞选赞助数据分析\data_03.csv')

2.2数据展示:
在这里插入图片描述data_01读取前五行完毕
在这里插入图片描述
data_02读取前五行完毕
在这里插入图片描述data_03读取前五行完毕
2.3合并数据(data_01,data_02,data_03)

data=pd.concat([data_01,data_02,data_03])
data.head()

2.4查看数据的信息,包括每个字段的名称、非空数量、字段的数据类型

data.info()

在这里插入图片描述
我们可以看出,contbr_employer和contbr_occupation 这两列字段的数量少一点,说明这里面有空值
2.5查看数据的概要

data.describe()

在这里插入图片描述
2.6缺失值的处理
从data.info()中,我们可以看到contbr_employer,contbr_occupation均有少量的缺失值,我们用not provided填充

data['contbr_employer'].fillna('not provided',inplace=True)
data['contbr_occupation'].fillna('not provided',inplace=True)

2.7 缺失值的查看

data[data['contbr_employer'].isnull()]
data[data['contbr_occupation'].isnull()]
data.info()

在这里插入图片描述
可以看到,缺失值已经没有了
2.8查看数据中总统候选人都有谁

print('共有{}位候选人,分别是'.format(len(data['cand_nm'].unique())))
data['cand_nm'].unique()

在这里插入图片描述
2.9通过搜索引擎等途径,获取到每个总统候选人的所属党派,建立字典parties,候选人名字作为键,所属党派作为对应的值

parties = {
   'Bachmann, Michelle': 'Republican',
           'Cain, Herman': 'Republican',
           'Gingrich, Newt': 'Republican',
           'Huntsman, Jon': 'Republican',
           'Johnson, Gary Earl': 'Republican',
           'McCotter, Thaddeus G
  • 5
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值