特征工程
步步星愿
狭路相逢勇者胜
展开
-
利用python实现对连续特征的分箱操作(数据离散化)
1. 数据分箱1.1 等区间分箱将连续变量的值进行获取,然后利用pandas的cut函数进行等区间分箱。如下代码,获取值A2_values ,并等数值区间分为6类为[0,1,2,3,4,5];(cut在操作时,统计了一维数组的最小、最大值,得到一个区间长度,因为需要划分6个区间)1.2 等频分箱将连续变量在[min,max]区间内,等数量地进行分箱。1.3 卡方分箱法(ChiMe...原创 2019-11-25 11:53:11 · 5845 阅读 · 1 评论 -
类别特征的各种处理总结
持续更新。。。文章目录one-hot(独热)编码为什么要独热编码?为什么特征向量要映射到欧式空间?独热编码优缺点什么情况下(不)用独热编码?什么情况下(不)需要归一化?one-hot编码为什么可以解决类别型数据的离散值问题Tree Model不太需要one-hot编码独热编码的编程实现LabelEncoder编码LabelEncoder编码的编程实现计数编码(频率编码)one-hot(独热)编...原创 2019-10-23 16:18:06 · 3963 阅读 · 3 评论