数据离散化
说口水话就是将一列数据所有可能出现的类别,弄成列名,如果第一行(按原数据的行数)出现了对应的类别,就在该类别下标上1,其余的都是0。这样就能把所有的类别弄成1000、0010、0001这种形式的。编码是将分类数据的所有项,全部都变成列,然后如果某一行中出现这一列,那么就标记为1,否则就标记为0。bool, default False (获得k中的k-1个类别值,去除第一个)弄成这种形式过后,使用欧式距离(sqrt(a²+b²))计算出类别之间的距离。中所有唯一的值都添加为新的列。自己指定切割的区间和数量。
原创
2023-08-01 16:32:47 ·
287 阅读 ·
2 评论