- 博客(4)
- 资源 (1)
- 收藏
- 关注
原创 数据预处理(四):处理连续型特征
处理连续型特征将连续型特征转换为分类特征,主要包括二值化与分段两种。二值化设置阈值,将特征值划分为0或1,在只考虑某种现象有无出现时可以进行该操作。可以使用sklearn.preprocessing.Binarizer进行数据二值化。from sklearn.preprocessing import Binarizerx = data.iloc[:,0].values.reshape(-1,1) #取出需要二值化的列x_bin = Binarizer(threshold = 30).fit_
2020-06-16 15:15:22 1364
原创 数据预处理(三):字符型特征处理
离散特征编码一、介绍1.原因逻辑回归、svm、k近邻等算法只能处理数值型数据,而不能处理文字,因此有时候我们应对文字型数据进行编码,转化为数值型数据。在sklearn中,除了专用于处理文字的算法,其他算法输入数据时全部要求输入数组或矩阵,不能导入文字型数据。2.两种编码方式当分类变量的取值之间有大小意义时,如【小学、初中、大学】,可以将其编码为【0,1,2】。当分类变量的取值...
2020-06-16 11:53:48 6365
原创 数据预处理(二):缺失值处理
缺失值在数据挖掘工作中,数据往往会出现有部分缺失值,因此缺失值填补属于数据处理的重要部分。一、使用skearn进行缺失值填补函数介绍:sklearn.impute.SimpleImputer(missing_values=nan,strategy='mean',fill_value = None,copy=True)参数含义与输入missing_values缺失值的格式,默认为np.nanstratege填补缺失值的策略,默认为均值;mean代表均值,median代表
2020-06-16 09:58:03 846
原创 数据预处理(一):无量纲化
无量纲化1.介绍在机器学习算法中,往往需要将不同规格的数据转换为同一规格,或者将不同分布的数据转换到某个特定分布,这种需求统称为“无量纲化”。在以梯度与矩阵为核心的算法中,如逻辑回归、支持向量机、神经网络,无量纲化可以加快求解速度;而在距离类模型中,如K近邻、Kmeans中,无量纲化可以避免某个取值范围特别大的特征对距离计算造成影响,提高模型的精度。2.数据归一化x∗=x−min(x)max(x)−min(x)x^*={x-min(x)\over{max(x) - min(x)}}x∗=max(x
2020-06-15 18:06:28 3707
分娩胎次及季节对法系长白母猪繁殖性能的影响
2018-05-11
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人