pandas学习笔记-第10章-综合练习

11 篇文章 0 订阅
6 篇文章 0 订阅

第一步导入所需的库
在这里插入图片描述

一、评委打分

某比赛有1000名选手,300位评委打分,每个选手由三个不同的评委打分,每位评委打10位选手的分

现在需要将各个评委的编号转到列索引,行索引不变,表格内容为打分分数,缺失值(即选手i没有被评委j打分)用’-'填充
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

二、企业收入熵指数

一个企业的产业多元化水平可以由收入熵指数计算衡量,其公式为−Σ𝑃 𝑖 ln𝑃 𝑖
−ΣPiln⁡Pi
,其中i表示第i个收入类型,𝑃 𝑖
Pi
表示该类型收入额所占整个收入额的比重(因此Σ𝑃 𝑖 =1
ΣPi=1
),现在需要对Company.csv中的公司计算它们的年度收入熵,需要利用Company_data.csv中不同收入类型销售额的数据(证券代码都是六位,第一列数字需要补零),请计算结果并保存到data文件夹下
注意:不是所有要求计算的公司都会在data文件中出现,反之亦然;某公司某年的数据若含有缺失值,请基于收入熵公式选择一种合理的计算方式

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

三、端午节的淘宝粽子交易

问题
(1)请删除最后一列为缺失值的行,并求所有在杭州发货的商品单价均值。
(2)商品标题带有“嘉兴”但发货地却不在嘉兴的商品有多少条记录?
(3)请按照分位数将价格分为“高、较高、中、较低、低”5个类别,再将类别结果插入到标题一列之后,最后对类别列进行降序排序。
(4)付款人数一栏有缺失值吗?若有则请利用上一问的分类结果对这些缺失值进行合理估计并填充。
(5)请将数据后四列合并为如下格式的Series:商品发货地为xx,店铺为xx,共计x×人付款,单价为xx。
(6)请将上一问中的结果恢复成原来的四列。
在这里插入图片描述(1)请删除最后一列为缺失值的行,并求所有在杭州发货的商品单价均值。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
(2)商品标题带有“嘉兴”但发货地却不在嘉兴的商品有多少条记录?
在这里插入图片描述
(3)请按照分位数将价格分为“高、较高、中、较低、低”5个类别,再将类别结果插入到标题一列之后,最后对类别列进行降序排序
在这里插入图片描述
在这里插入图片描述
(4)付款人数一栏有缺失值吗?若有则请利用上一问的分类结果对这些缺失值进行合理估计并填充。在这里插入图片描述
在这里插入图片描述

# 情况二: 没有包括万的, 使用"人付款"分割,再去掉空格,再去掉包括加号的.
s42 = s4[[ idx for idx in s4.index if idx not in  s41.index]].str.split('人付款',expand=True)[0].str.replace(r'\s+','').str.replace(r'+','').astype('int')
s42

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
(5)请将数据后四列合并为如下格式的Series:商品发货地为xx,店铺为xx,共计x×人付款,单价为xx。
在这里插入图片描述
在这里插入图片描述
(6) 请将上一问中的结果恢复成原来的四列。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

四、墨尔本每日最低温度

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  1. 剔除国庆节、五一劳动节和每月第一个周一,求每月的平均最低气温
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

五、2016年8月上海市摩拜单车骑行记录

问题
(1)平均而言,周末单天用车量比工作日单天用车量更大吗?
(2)工作日每天的高峰时间段大致为上午7:30至9:30、下午17:00至19:00,请问8月里早高峰骑行记录量(以start_time为准)高于晚高峰的有几天?
(3)请给出在所有周五中(以start_time为准),记录条数最多的那个周五所在的日期,并在该天内分别按30分钟、2小时、6小时统计摩拜单车使用时间的均值。
(4)请自行搜索相关代码或调用库,计算每条记录起点到终点的球面距离。
(5)摩拜单车的骑行结束时间是以电子锁关闭的记录时间为准,但有时候用户会忘记关锁,导致骑行时间出现异常。同时,正常人的骑行速度往往大致落在一个合理的区间,请结合上一问中的球面距离和骑行起始、结束时间,找出潜在的异常骑行记录。
(6)由于路线的曲折性,起点到终点的球面距离往往不能充分反应行程长度,请利用track列的路线坐标数据,计算估计实际骑行距离,并重新仿照上一问的方法找出可能的异常记录。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
参考网址:
https://github.com/flashriver/joyfull_pandas/blob/master/exercise_2.ipynb
https://github.com/ZLFlyApple/DW-Teamlearning-note/blob/master/Pandas_note_Task10.ipynb

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值