data analysis
敲代码的quant
ML/DL/量化金融/学生
展开
-
数据分析——数据清洗之文字特征编码
在对数据进行预处理时,有时会面临特征值是字符串类型的时候,这时候就需要对特征值进行编码处理,主要分为一下两类:各个特征值之间没有任何关联,如['red', 'green', 'blue']。 各个特征值之间有关系,如['Excellent', 'Good', 'Normal', 'Bad']。下面分别说一下如何对以上两种类型数据进行编码处理:拿kaggle中的House Price数据...原创 2018-08-11 19:41:57 · 4371 阅读 · 0 评论 -
数据分析——数据清洗之缺失值处理
在将数据进行分析或者跑机器学习算法时,缺失值处理是很重要的一步,下面将通过读取csv文件来举例说明。读取csv文件时常见的缺失值有如下类型。空数据 0 NA 其他表示形式,如‘null’一、空数据和NA数据以及其他表示空的数据创建一个测试文件,从中可以看出,空数据或者是NA数据都会被默认为是NaN。并且在文件中只有是NA或者是空是才会被转换为NaN,而如果是null、None之...原创 2018-08-11 22:04:46 · 6816 阅读 · 0 评论 -
pandas之用loc、iloc、ix进行索引以及切片
写在前面虽然用了pandas很长时间了,但是基本也是围绕在用pandas去做一些文件操作以及一些常用功能,每次在用到对DataFrame进行索引时都习惯了数组的 [] 索引方式,所以在使用DataFrame索引时,我都比较习惯于将DataFrame先转换为二维数组,然后以数组的方式进行索引,因为对DataFrame用 [] 进行索引时经常会有一些易错点,而用loc、iloc时,老是忘记它们的适用...原创 2019-07-31 00:01:55 · 1481 阅读 · 0 评论 -
pandas之分组groupby()的使用整理与总结
前言在使用pandas的时候,有些场景需要对数据内部进行分组处理,如一组全校学生成绩的数据,我们想通过班级进行分组,或者再对班级分组后的性别进行分组来进行分析,这时通过pandas下的groupby()函数就可以解决。在使用pandas进行数据分析时,groupby()函数将会是一个数据分析辅助的利器。groupby的作用可以参考 超好用的 pandas 之 groupby 中作者的插图进行直...原创 2019-07-27 18:41:53 · 150904 阅读 · 13 评论