数据离散化
连续属性的离散化就是连续属性的值域上,将值域划分为若干个离散的符号或者整数,值代表落在每个子间中的属性值
像这组身高数据,但是每一个人还不想用具体的身高表示,
我们称之为one-hot编码,也叫作哑变量
如何实现数据的离散化
分组
sr = pd.qcut(data,组数)
sr = pd.cut(data,[]这个是自定义分组的区间)
将分组好的结果,转换成one-hot编码
pd.get_demies(sr,prefix=前缀)
关于这个的API
对股票进行离散化处理
进行数据离散化,在机器学习对特征进行运算,不能以字符串的形式