![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
猪皮头
这个作者很懒,什么都没留下…
展开
-
数据预处理(四):处理连续型特征
处理连续型特征将连续型特征转换为分类特征,主要包括二值化与分段两种。二值化设置阈值,将特征值划分为0或1,在只考虑某种现象有无出现时可以进行该操作。可以使用sklearn.preprocessing.Binarizer进行数据二值化。from sklearn.preprocessing import Binarizerx = data.iloc[:,0].values.reshape(-1,1) #取出需要二值化的列x_bin = Binarizer(threshold = 30).fit_原创 2020-06-16 15:15:22 · 1317 阅读 · 0 评论 -
数据预处理(三):字符型特征处理
离散特征编码一、介绍1.原因逻辑回归、svm、k近邻等算法只能处理数值型数据,而不能处理文字,因此有时候我们应对文字型数据进行编码,转化为数值型数据。在sklearn中,除了专用于处理文字的算法,其他算法输入数据时全部要求输入数组或矩阵,不能导入文字型数据。2.两种编码方式当分类变量的取值之间有大小意义时,如【小学、初中、大学】,可以将其编码为【0,1,2】。当分类变量的取值...原创 2020-06-16 11:53:48 · 6201 阅读 · 0 评论 -
数据预处理(二):缺失值处理
缺失值在数据挖掘工作中,数据往往会出现有部分缺失值,因此缺失值填补属于数据处理的重要部分。一、使用skearn进行缺失值填补函数介绍:sklearn.impute.SimpleImputer(missing_values=nan,strategy='mean',fill_value = None,copy=True)参数含义与输入missing_values缺失值的格式,默认为np.nanstratege填补缺失值的策略,默认为均值;mean代表均值,median代表原创 2020-06-16 09:58:03 · 805 阅读 · 0 评论