Datawhale pandas开源课程
Ivan_禧
这个作者很懒,什么都没留下…
展开
-
datawhale 从零nlp - task2
数据分析原创 2020-07-22 23:59:09 · 123 阅读 · 0 评论 -
Datawhale从零开始的nlp - Task01
赛题理解文本分类, 目的就是把新闻正确分成14种标签评价指标评价标准为类别f1_score的均值,选手提交结果与实际测试集的类别进行对比,结果越大越好。F1分数(F1-score)是分类问题的一个衡量指标。一些多分类问题的机器学习竞赛,常常将F1-score作为最终测评的方法。它是精确率和召回率的调和平均数,最大为1,最小为0。F=2⋅precision⋅recallprecision+recallF=2\cdot \frac{precision\cdot recall}{precision+re原创 2020-07-21 20:48:17 · 99 阅读 · 0 评论 -
pandas学习下 -- 综合练习
问题1(1) 请删除最后一列为缺失值的行,并求所有在杭州发货的商品单价均值.xt1 = pd.read_csv(’.\端午粽子数据.csv’).convert_dtypes()xt1.columns = xt1.columns.str.strip()读取数据后取出列名中的空格def is_number(x):try:float(x)return Trueexcept (SyntaxError, ValueError) as e:return Falsext1[~xt1[‘价格’].ma原创 2020-07-01 23:56:34 · 122 阅读 · 0 评论 -
pandas学习下-task4
五、问题与练习【问题一】 如何对date_range进行批量加帧操作或对某一时间段加大时间戳密度?通过 date_range(start, end, periods) 来对某时间段加大密度操作, 比如固定时间段, 增加periods参数取值【问题二】 如何批量增加TimeStamp的精度?pd.to_datetime(‘2020/1/1 00:00:00.00’) 最多至小数位后9位, 即纳秒.【问题三】 对于超出处理时间的时间点,是否真的完全没有处理方法?【问题四】 给定一组非连续的日期,怎么原创 2020-06-29 23:15:45 · 201 阅读 · 0 评论 -
pandas学习下-Task3
【问题一】 如何使用union_categoricals方法?它的作用是什么?合并两个分类列表,比如a = pd.Categorical([“b”, “c”])b = pd.Categorical([“a”, “b”])union_categoricals([a, b])[b, c, a, b]【问题二】 利用concat方法将两个序列纵向拼接,它的结果一定是分类变量吗?什么情况下不是?当两个序列排序不同时, 合并后为object.【问题三】 当使用groupby方法或者value_count原创 2020-06-27 21:59:32 · 115 阅读 · 0 评论 -
pandas学习下 - task2
【问题一】 str对象方法和df/Series对象方法有什么区别?str.replace针对的是object类型或string类型,默认是以正则表达式为操作,目前暂时不支持DataFrame上使用.replace针对的是任意类型的序列或数据框,如果要以正则表达式替换,需要设置regex=True,该方法通过字典可支持多列替换【问题二】 给出一列string类型,如何判断单元格是否是数值型数据?无论是isnumeric, isdigit以及 isdecimal等只能判断纯数字字符,不能带小数点,负号等原创 2020-06-26 22:51:48 · 160 阅读 · 0 评论 -
pandas学习下 - Task01
【问题一】 如何删除缺失值占比超过25%的列?df.info()获取缺失值占比, 然后通过drop 一个个删除自定义一个函数,通过df[col].isna().sum()获取某列的缺失值数量, 然后除以行数,大于25%就删除该列【问题二】 什么是Nullable类型?请谈谈为什么要引入这个设计?原来处理缺失值的时候没考虑清楚,导致包含缺失值的时候出现问题,比如把数值转换成float,把字符转换成object等。因此为了不影响原代码的基础上,新增了一个能很好的处理缺失值的类nullable,类型命名分原创 2020-06-23 23:45:48 · 187 阅读 · 0 评论 -
pandas 学习 - Task06综合练习
2002 年-2018 年上海机动车拍照拍卖问题 (1) 哪一次拍卖的中标率首次小于 5%?sh_auc[‘ratio’] = sh_auc.iloc[:,1] / sh_auc.iloc[:,4]sh_auc[sh_auc[‘ratio’]<0.05].head(1)月份: 15-May(2) 按年统计拍卖最低价的下列统计量:最大值、均值、0.75 分位数,要求 显示在同一张表上...原创 2020-05-01 23:55:29 · 226 阅读 · 0 评论 -
pandas学习 - Task05合并
1. 问题【问题一】 请思考什么是append/assign/combine/update/concat/merge/join各自最适合使用的场景,并举出相应的例子。append 与 assign相似, 每次都是在上一个dataframe的基础上增加新的行/列, 因此适合用在循环当中, 循环叠加赋值. 如在建模中需要保存每一次迭代的参数, 便可用append 来进行保存.combine与 u...原创 2020-04-30 23:34:27 · 236 阅读 · 0 评论 -
pandas Task04-变形
1. 问题【问题一】 上面提到了许多变形函数,如melt/crosstab/pivot/pivot_table/stack/unstack函数,请总结它们各自的使用特点。pivot_table 就像excel里面的透视表(名字都是一样的),index 是行字段, columns是列字段, values 是值字段. 其中aggfunc 输入的是values 的加工逻辑如写法是 aggfunc ...原创 2020-04-29 00:00:36 · 209 阅读 · 0 评论 -
pandas学习打卡-Task03
分组【问题一】 什么是fillna的前向/后向填充,如何实现?就是用na值的前/后 一个非na值进行填充可以使用fillna 函数里面的 method = ‘ffill’ or ‘bfill’注意, 如果最开始的值是na则ffill 无法fill, 同样最后的值为na bfill也无法fill好吧, 也可以直接用ffill函数或者bfill函数为什么有了fillna 还要设计 ffil...原创 2020-04-28 01:09:57 · 220 阅读 · 0 评论 -
pandas 学习打卡 02
索引pandas索引的功能纷繁复杂, 不是一时半会儿能掌握, 因此本人倾向于偷懒, 就记住简单常用的(复杂的= 不常用) 哈首先是位置三件套, iloc., loc, [], 还有一个ix不推荐[] 一般是列名定位iloc 是 index location 的缩写, 用索引以及列名 进行定位loc 纯粹的location, 因此用行列的数进行定位.助教提到的通用原则:行用loc, 列...原创 2020-04-24 00:00:12 · 186 阅读 · 0 评论 -
pandas 学习打卡 01
pandas基础五、问题与练习1. 问题【问题一】 Series和DataFrame有哪些常见属性和方法?{‘Series’:{‘Attribute’:[‘name’,‘values’,‘index’,‘dtype’],‘Method’:[‘mean’,‘max’,‘min’,‘std’,‘replace’]},‘DataFrame’:{‘Attribute’:[‘index’,‘colu...原创 2020-04-20 23:55:15 · 88 阅读 · 0 评论