第一步导入所需的库
一、评委打分
某比赛有1000名选手,300位评委打分,每个选手由三个不同的评委打分,每位评委打10位选手的分
现在需要将各个评委的编号转到列索引,行索引不变,表格内容为打分分数,缺失值(即选手i没有被评委j打分)用’-'填充
二、企业收入熵指数
一个企业的产业多元化水平可以由收入熵指数计算衡量,其公式为−Σ𝑃 𝑖 ln𝑃 𝑖
−ΣPilnPi
,其中i表示第i个收入类型,𝑃 𝑖
Pi
表示该类型收入额所占整个收入额的比重(因此Σ𝑃 𝑖 =1
ΣPi=1
),现在需要对Company.csv中的公司计算它们的年度收入熵,需要利用Company_data.csv中不同收入类型销售额的数据(证券代码都是六位,第一列数字需要补零),请计算结果并保存到data文件夹下
注意:不是所有要求计算的公司都会在data文件中出现,反之亦然;某公司某年的数据若含有缺失值,请基于收入熵公式选择一种合理的计算方式
三、端午节的淘宝粽子交易
问题
(1)请删除最后一列为缺失值的行,并求所有在杭州发货的商品单价均值。
(2)商品标题带有“嘉兴”但发货地却不在嘉兴的商品有多少条记录?
(3)请按照分位数将价格分为“高、较高、中、较低、低”5个类别,再将类别结果插入到标题一列之后,最后对类别列进行降序排序。
(4)付款人数一栏有缺失值吗?若有则请利用上一问的分类结果对这些缺失值进行合理估计并填充。
(5)请将数据后四列合并为如下格式的Series:商品发货地为xx,店铺为xx,共计x×人付款,单价为xx。
(6)请将上一问中的结果恢复成原来的四列。
(1)请删除最后一列为缺失值的行,并求所有在杭州发货的商品单价均值。
(2)商品标题带有“嘉兴”但发货地却不在嘉兴的商品有多少条记录?
(3)请按照分位数将价格分为“高、较高、中、较低、低”5个类别,再将类别结果插入到标题一列之后,最后对类别列进行降序排序
(4)付款人数一栏有缺失值吗?若有则请利用上一问的分类结果对这些缺失值进行合理估计并填充。
# 情况二: 没有包括万的, 使用"人付款"分割,再去掉空格,再去掉包括加号的.
s42 = s4[[ idx for idx in s4.index if idx not in s41.index]].str.split('人付款',expand=True)[0].str.replace(r'\s+','').str.replace(r'+','').astype('int')
s42
(5)请将数据后四列合并为如下格式的Series:商品发货地为xx,店铺为xx,共计x×人付款,单价为xx。
(6) 请将上一问中的结果恢复成原来的四列。
四、墨尔本每日最低温度
- 剔除国庆节、五一劳动节和每月第一个周一,求每月的平均最低气温
五、2016年8月上海市摩拜单车骑行记录
问题
(1)平均而言,周末单天用车量比工作日单天用车量更大吗?
(2)工作日每天的高峰时间段大致为上午7:30至9:30、下午17:00至19:00,请问8月里早高峰骑行记录量(以start_time为准)高于晚高峰的有几天?
(3)请给出在所有周五中(以start_time为准),记录条数最多的那个周五所在的日期,并在该天内分别按30分钟、2小时、6小时统计摩拜单车使用时间的均值。
(4)请自行搜索相关代码或调用库,计算每条记录起点到终点的球面距离。
(5)摩拜单车的骑行结束时间是以电子锁关闭的记录时间为准,但有时候用户会忘记关锁,导致骑行时间出现异常。同时,正常人的骑行速度往往大致落在一个合理的区间,请结合上一问中的球面距离和骑行起始、结束时间,找出潜在的异常骑行记录。
(6)由于路线的曲折性,起点到终点的球面距离往往不能充分反应行程长度,请利用track列的路线坐标数据,计算估计实际骑行距离,并重新仿照上一问的方法找出可能的异常记录。
参考网址:
https://github.com/flashriver/joyfull_pandas/blob/master/exercise_2.ipynb
https://github.com/ZLFlyApple/DW-Teamlearning-note/blob/master/Pandas_note_Task10.ipynb