Pandas学习任务1-3

这是在DataWhale学习小组pandas学习中的一个任务,由于作者太菜了,连第一题还在思考中,先把题目放出来吧,大家一块讨论,有思路的可以直接给作者留言,不胜感激。
DataWhale
【任务一】企业收入的多样性

【题目描述】一个企业的产业收入多样性可以仿照信息熵的概念来定义收入熵指标:

I = − ∑ i p ( x i ) log ⁡ ( p ( x i ) )

其中 p(xi)是企业该年某产业收入额占该年所有产业总收入的比重。在company.csv中存有需要计算的企业和年份,在company_data.csv中存有企业、各类收入额和收入年份的信息。现请利用后一张表中的数据,在前一张表中增加一列表示该公司该年份的收入熵指标 I 。

import pandas as pd
import numpy as np
df1 = pd.read_csv(r'C:\Users\zhoukaiwei\Desktop\任务1-3数据\【批量下载】Company_data等\我的资源\company.csv')
df1.head()
证券代码日期
0#0000072014
1#0004032015
2#0004082016
3#0004082017
4#0004262015
df2 = pd.read_csv(r'C:\Users\zhoukaiwei\Desktop\任务1-3数据\【批量下载】Company_data等\我的资源\company_data.csv')
df2.head()
证券代码日期收入类型收入额
012008/12/3111.084218e+10
112008/12/3121.259789e+10
212008/12/3131.451312e+10
312008/12/3141.063843e+09
412008/12/3158.513880e+08

【任务二】组队学习信息表的变换

【题目描述】请把组队学习的队伍信息表变换为如下形态,其中“是否队长”一列取1表示队长,否则为0
是否队长 队伍名称 昵称 编号
0 1 你说的都对队 山枫叶纷飞 5
1 0 你说的都对队 蔡 6
2 0 你说的都对队 安慕希 7
3 0 你说的都对队 信仰 8
4 0 你说的都对队 biubiu🙈🙈 20
… … … … …
141 0 七星联盟 Daisy 63
142 0 七星联盟 One Better 131
143 0 七星联盟 rain 112
144 1 应如是 思无邪 54
145 0 应如是 Justzer0 58

filename=open(r'C:\Users\zhoukaiwei\Desktop\任务1-3数据\team.csv')
df = pd.read_csv(filename)
df.head()
所在群队伍名称队长编号队长_群昵称队员1 编号队员_群昵称队员2 编号队员_群昵称.1队员3 编号队员_群昵称.2...队员6 编号队员_群昵称.5队员7 编号队员_群昵称.6队员8 编号队员_群昵称.7队员9 编号队员_群昵称.8队员10编号队员_群昵称.9
0Pandas数据分析你说的都对队5.0山枫叶纷飞6.07.0安慕希8.0信仰...NaNNaNNaNNaNNaNNaNNaNNaNNaNNaN
1Pandas数据分析熊猫人175.0鱼呲呲44.0Heaven37.0吕青50.0余柳成荫...25.0Never say never55.0K120.0Y.28.0X.Y.Q151.0swrong
2Pandas数据分析中国移不动107.0Y's124.0??75.0Vito146.0张小五...NaNNaNNaNNaNNaNNaNNaNNaNNaNNaN
3Pandas数据分析panda11.0太下真君35.0柚子108.0My42.0星星点灯...157.0Zys158.0不器102.0嘉平佑染NaNNaNNaNNaN
4Pandas数据分析一路向北13.0黄元帅15.016.0未期18.0太陽光下...23.0??169.0听风189.0CappuccinoNaNNaNNaNNaN

5 rows × 24 columns

【任务三】美国大选投票情况

【题目描述】两张数据表中分别给出了美国各县(county)的人口数以及大选的投票情况,请解决以下问题:

1.有多少县满足总投票数超过县人口数的一半
2.把州(state)作为行索引,把投票候选人作为列名,列名的顺序按照候选人在全美的总票数由高到低排序,行列对应的元素为该候选人在该州获得的总票数
3.每一个州下设若干县,定义拜登在该县的得票率减去川普在该县的得票率为该县的BT指标,若某个州所有县BT指标的中位数大于0,则称该州为Biden State,请找出所有的Biden State

df1 = pd.read_csv(r'C:\Users\zhoukaiwei\Desktop\任务1-3数据\【批量下载】president_county_candidate等\county_population.csv')
df1.head()
US CountyPopulation
0.Autauga County, Alabama55869
1.Baldwin County, Alabama223234
2.Barbour County, Alabama24686
3.Bibb County, Alabama22394
4.Blount County, Alabama57826
df2 = pd.read_csv(r'C:\Users\zhoukaiwei\Desktop\任务1-3数据\【批量下载】president_county_candidate等\president_county_candidate.csv')
df2.head()
statecountycandidatepartytotal_voteswon
0DelawareKent CountyJoe BidenDEM44552True
1DelawareKent CountyDonald TrumpREP41009False
2DelawareKent CountyJo JorgensenLIB1044False
3DelawareKent CountyHowie HawkinsGRN420False
4DelawareNew Castle CountyJoe BidenDEM195034True

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值