数据分析
首先task4是一个项目做一个数据分析的题目是关于2020美国选举的。
数据集
所有候选人信息
CAND_ID 候选人ID
CAND_NAME 候选人姓名
CAND_PTY_AFFILIATION 候选人党派
候选人委员会链接信息
CAND_ID 候选人ID
CAND_ELECTION_YR 候选人选举年份
CMTE_ID 委员会ID
个人捐款档案信息
CMTE_ID 委员会ID
NAME 捐款人姓名
CITY 捐款人所在市
State 捐款人所在州
EMPLOYER 捐款人雇主/公司
OCCUPATION 捐款人职业
数据处理
将数据进行对应,通过ID关联两张表,这里引入了数据库的概念。将关联的数据转化为表。
数据探索与清洗
进过数据处理部分,我们获得了可用的数据集,现在我们可以利用调用shape属性查看数据的规模,调用info函数查看数据信息,调用describe函数查看数据分布。
数据分析
将捐款额进行了三次分析一个是候选人的另一个是不同职业的,不同洲的捐款数额可以看出不同人不同党派的收入和不同职业收入来进一步探索数据的奥妙
数据可视化
可以将数据图形化很智能的一个功能
总结
整体看下来task4为我们介绍了怎么去分析做表,做图形等直观的让我们看到从数据面上两位候选人谁更容易竞选总统,可以看出python的智能和功能强大。这次学习更多的收获了怎么去使用python,怎么调用数据。以后会更多尝试使用python来分析各种数据,感谢阿里云有这么好的资源学习。