- 博客(26)
- 收藏
- 关注
原创 Datawhale从零开始的nlp - Task01
赛题理解文本分类, 目的就是把新闻正确分成14种标签评价指标评价标准为类别f1_score的均值,选手提交结果与实际测试集的类别进行对比,结果越大越好。F1分数(F1-score)是分类问题的一个衡量指标。一些多分类问题的机器学习竞赛,常常将F1-score作为最终测评的方法。它是精确率和召回率的调和平均数,最大为1,最小为0。F=2⋅precision⋅recallprecision+recallF=2\cdot \frac{precision\cdot recall}{precision+re
2020-07-21 20:48:17 150
原创 pandas学习下 -- 综合练习
问题1(1) 请删除最后一列为缺失值的行,并求所有在杭州发货的商品单价均值.xt1 = pd.read_csv(’.\端午粽子数据.csv’).convert_dtypes()xt1.columns = xt1.columns.str.strip()读取数据后取出列名中的空格def is_number(x):try:float(x)return Trueexcept (SyntaxError, ValueError) as e:return Falsext1[~xt1[‘价格’].ma
2020-07-01 23:56:34 151
原创 pandas学习下-task4
五、问题与练习【问题一】 如何对date_range进行批量加帧操作或对某一时间段加大时间戳密度?通过 date_range(start, end, periods) 来对某时间段加大密度操作, 比如固定时间段, 增加periods参数取值【问题二】 如何批量增加TimeStamp的精度?pd.to_datetime(‘2020/1/1 00:00:00.00’) 最多至小数位后9位, 即纳秒.【问题三】 对于超出处理时间的时间点,是否真的完全没有处理方法?【问题四】 给定一组非连续的日期,怎么
2020-06-29 23:15:45 227
原创 pandas学习下-Task3
【问题一】 如何使用union_categoricals方法?它的作用是什么?合并两个分类列表,比如a = pd.Categorical([“b”, “c”])b = pd.Categorical([“a”, “b”])union_categoricals([a, b])[b, c, a, b]【问题二】 利用concat方法将两个序列纵向拼接,它的结果一定是分类变量吗?什么情况下不是?当两个序列排序不同时, 合并后为object.【问题三】 当使用groupby方法或者value_count
2020-06-27 21:59:32 140
原创 pandas学习下 - task2
【问题一】 str对象方法和df/Series对象方法有什么区别?str.replace针对的是object类型或string类型,默认是以正则表达式为操作,目前暂时不支持DataFrame上使用.replace针对的是任意类型的序列或数据框,如果要以正则表达式替换,需要设置regex=True,该方法通过字典可支持多列替换【问题二】 给出一列string类型,如何判断单元格是否是数值型数据?无论是isnumeric, isdigit以及 isdecimal等只能判断纯数字字符,不能带小数点,负号等
2020-06-26 22:51:48 208
原创 pandas学习下 - Task01
【问题一】 如何删除缺失值占比超过25%的列?df.info()获取缺失值占比, 然后通过drop 一个个删除自定义一个函数,通过df[col].isna().sum()获取某列的缺失值数量, 然后除以行数,大于25%就删除该列【问题二】 什么是Nullable类型?请谈谈为什么要引入这个设计?原来处理缺失值的时候没考虑清楚,导致包含缺失值的时候出现问题,比如把数值转换成float,把字符转换成object等。因此为了不影响原代码的基础上,新增了一个能很好的处理缺失值的类nullable,类型命名分
2020-06-23 23:45:48 219
原创 pandas 学习 - Task06综合练习
2002 年-2018 年上海机动车拍照拍卖问题 (1) 哪一次拍卖的中标率首次小于 5%?sh_auc[‘ratio’] = sh_auc.iloc[:,1] / sh_auc.iloc[:,4]sh_auc[sh_auc[‘ratio’]<0.05].head(1)月份: 15-May(2) 按年统计拍卖最低价的下列统计量:最大值、均值、0.75 分位数,要求 显示在同一张表上...
2020-05-01 23:55:29 275
原创 pandas学习 - Task05合并
1. 问题【问题一】 请思考什么是append/assign/combine/update/concat/merge/join各自最适合使用的场景,并举出相应的例子。append 与 assign相似, 每次都是在上一个dataframe的基础上增加新的行/列, 因此适合用在循环当中, 循环叠加赋值. 如在建模中需要保存每一次迭代的参数, 便可用append 来进行保存.combine与 u...
2020-04-30 23:34:27 287
原创 pandas Task04-变形
1. 问题【问题一】 上面提到了许多变形函数,如melt/crosstab/pivot/pivot_table/stack/unstack函数,请总结它们各自的使用特点。pivot_table 就像excel里面的透视表(名字都是一样的),index 是行字段, columns是列字段, values 是值字段. 其中aggfunc 输入的是values 的加工逻辑如写法是 aggfunc ...
2020-04-29 00:00:36 277
原创 pandas学习打卡-Task03
分组【问题一】 什么是fillna的前向/后向填充,如何实现?就是用na值的前/后 一个非na值进行填充可以使用fillna 函数里面的 method = ‘ffill’ or ‘bfill’注意, 如果最开始的值是na则ffill 无法fill, 同样最后的值为na bfill也无法fill好吧, 也可以直接用ffill函数或者bfill函数为什么有了fillna 还要设计 ffil...
2020-04-28 01:09:57 301
原创 pandas 学习打卡 02
索引pandas索引的功能纷繁复杂, 不是一时半会儿能掌握, 因此本人倾向于偷懒, 就记住简单常用的(复杂的= 不常用) 哈首先是位置三件套, iloc., loc, [], 还有一个ix不推荐[] 一般是列名定位iloc 是 index location 的缩写, 用索引以及列名 进行定位loc 纯粹的location, 因此用行列的数进行定位.助教提到的通用原则:行用loc, 列...
2020-04-24 00:00:12 236
原创 pandas 学习打卡 01
pandas基础五、问题与练习1. 问题【问题一】 Series和DataFrame有哪些常见属性和方法?{‘Series’:{‘Attribute’:[‘name’,‘values’,‘index’,‘dtype’],‘Method’:[‘mean’,‘max’,‘min’,‘std’,‘replace’]},‘DataFrame’:{‘Attribute’:[‘index’,‘colu...
2020-04-20 23:55:15 108
原创 天池&Datawhale二手车新手赛Task05
天池&Datawhale二手车新手赛Task05模型融合尝试不同的融合方式融合模型的解释模型融合模型融合, 虽然远离并不难理解, 比如随机森林, XGBoost 这种, 某种意义上也是一种模型的融合, 随机森林用的是不同学习器投票的方式, 而XGBoost这类则用的是弱学习器叠加的方式. 前者是民主集中制, 少数服从多数, 后者则是三个臭皮匠赛过诸葛亮的方式. 但这些都是把模型融合整...
2020-04-04 20:49:23 238
原创 天池&Datawhale二手车新手赛 – Task04
模型选择与调参个人觉得,模型选择不能用评价指标来衡量。比如线性模型与强化学习族算法,一个是可解释模型,一个是黑盒子模型。根本就不用比,强化族肯定更优。但如果我需要模型给出业务解释,那就得用线性模型,如果只要结果,那肯定是强化学习。而线性模型要达到强化学习的效果,其所需要的特征工程的时间耗费是巨大的,而什么都不做的情况下,用MAE这样的评价指标来评价,真的没什么意义。关于调参…还没什么实际经验...
2020-04-01 21:49:11 91
原创 天池&Datawhale二手车新手赛-Task03
如何做特征工程首先确定你选用的模型是什么特征工程应当结合模型来做,这看起来似乎是一句废话,但与一些参赛的小伙伴讨论过后,发现很多人都没有认识到这一点。或者说只是表面上知道这一点,却并没有很好地在建模中践行。我觉得这里有一个原因,就是很多同学在做data mining的时候,只是调包,然后顶多调一下超参数,只能从结果来判断参数好坏,并不知道为什么好,甚至连有哪些超参数都不清楚。基于此,对特征工程...
2020-03-28 21:37:08 184
原创 天池&Datawhale二手车新手赛-Task02
这一阶段主要是熟悉数据,并进行初步的EDA,个人认为EDA应该是一直持续到比赛前三天左右时间吧,最后就应该全力调参以及尝试各种trick了。这一阶段,我觉得pandas_profiling 这个包能够很好的解决冷启动问题,看完基础报告下来,特征的一些基本情况也都大致了解了。唉,果然一本正经的按部就班写不适合我的特点,直接进入吐槽模式吧。对Y进行正态性转换的思考首先是data whale给的...
2020-03-24 20:40:49 227 1
原创 动手学深度 - Task08
数据增强、模型微调、文本分类数据增强通过对数据进行翻转、增加噪声、调整色调亮度等等操作,提高模型的泛化能力。模型微调属于迁移学习的范畴,学习如何将别人训练好的模型嫁接到目标项目上里面讲到一个技巧是,将输出层参数随机初始化,而隐藏层不变学习过程中,隐藏层用较小的学习率,输出层用较大的学习率嗯,都是很common sense的内容了文本分类对于文本,用一维卷积核进行特征提取而且需要...
2020-02-25 15:59:45 106
原创 动手学深度 - Task07
梯度下降优化算法进阶、Word2Vec、词嵌入进阶梯度下降优化算法进阶当函数的二阶梯度矩阵(海森矩阵)对角线上元素(二阶导数)相差过大时(最大最小比值大于10),则出现ill condition, ill condition 准确的描述是海森矩阵特征值,最大最小的比值。两者的差异?出现ill condition时,梯度在不同方向上具有较大差异,导致难以收敛为此提出了许多改进的算法,核心思路...
2020-02-25 01:30:12 102
原创 动手学深度 - Task06
批量归一化和残差网络;凸优化;梯度下降批量归一化全连接在激活函数前归一化, 对于卷积层,则是在卷积之后。全连接的归一化,是每一个神经元计算一个批量均值与方差;而对于卷积后的批量,是每一个通道计算一个批量的均值与方差。思考点:为什么是一个通道做归一化,而不是通道的每个单元做归一化?答案很显然,每一个通道即一张feature map,而作为feature,做平移与标准化并不会改变featur...
2020-02-23 02:11:12 98
原创 动手学深度 - Task05
卷积神经网络基础; lenet; 卷积神经网络进阶之前就看过,这次再看,复习的同时也是学习如何通过pytorch实现吧然后吐槽一下,看完视频,感觉就学会了结算卷积后下一层神经元的维度。。。通道数长宽。。。然后深度卷积仿佛就像搭积木,然后就是不断的“创新”,好吧,对于小弟来说,学会用几个现成的框架解决问题足矣...
2020-02-19 21:58:06 88
原创 动手学深度-Task04
思考:课程中提到了beam search觉得讲的太粗略,而且例子给的不清晰,留下两个疑问在beam search里面,每一个保留的是所有搜索的top k最优,还是一开始分成k个子搜索,然后每一步保留子搜索的最优?最终有k个结果,如何选择最优?机器翻译与 seq2seq模型最核心的概念, encoder 与 decoder这个框架其实可以用在许多地方,比如图像生成,风格转移等等简单...
2020-02-19 21:52:10 75
原创 动手学深度-Task03
疑问及思考:对于梯度爆炸与梯度消失的影响理解还不透彻,只知道多层神经网络后梯度可能趋于非常大或者接近0 的值, 但实际上呢?例如权重裁剪,可以解决爆炸的问题吗?会不会反而带来了梯度消失的问题?这种是不是得通过实验来获得感性认识。过拟合、欠拟合以及解决方案; 梯度消失梯度爆炸;循环神经网络进阶训练集、验证集、测试集验证集与测试集的差异验证集用于调参,而测试集仅仅用于评价模型好坏,不能用于调参...
2020-02-19 21:39:34 95
原创 动手学深度-Task02
先占个坑。。。文本预处理语言模型循环神经网络目前还不清晰的在随机采样 与 相邻采样原理都懂。。。 就是程序实现起来需要时间熟悉与琢磨希望之后能赶上进度...
2020-02-14 21:53:38 99
原创 动手学深度-Task1
以为课程真的从小白开始,结果上来就是pytorch, 机器学习向来”动口不动手“(惭愧)的我,一下子就蒙蔽了,里面很多对象用法以及函数都是完全蒙圈,咋办?自己从零开始。。。基本概念tensor张量,跟numpy中的ndarray 多维数组很像,但不一样的在于tensor能被gpu加速,待加深理解动态计算图动态计算图(Dynamic Computation Graph)是PyTorch的最...
2020-02-14 19:40:20 164
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人