猪皮头-CSDN博客

原创数据预处理（四）：处理连续型特征

处理连续型特征将连续型特征转换为分类特征，主要包括二值化与分段两种。二值化设置阈值，将特征值划分为0或1，在只考虑某种现象有无出现时可以进行该操作。可以使用sklearn.preprocessing.Binarizer进行数据二值化。from sklearn.preprocessing import Binarizerx = data.iloc[:,0].values.reshape(-1,1) #取出需要二值化的列x_bin = Binarizer(threshold = 30).fit_

2020-06-16 15:15:22 1364

原创数据预处理（三）：字符型特征处理

离散特征编码一、介绍1.原因逻辑回归、svm、k近邻等算法只能处理数值型数据，而不能处理文字，因此有时候我们应对文字型数据进行编码，转化为数值型数据。在sklearn中，除了专用于处理文字的算法，其他算法输入数据时全部要求输入数组或矩阵，不能导入文字型数据。2.两种编码方式当分类变量的取值之间有大小意义时，如【小学、初中、大学】，可以将其编码为【0,1,2】。当分类变量的取值...

2020-06-16 11:53:48 6365

原创数据预处理（二）：缺失值处理

缺失值在数据挖掘工作中，数据往往会出现有部分缺失值，因此缺失值填补属于数据处理的重要部分。一、使用skearn进行缺失值填补函数介绍：sklearn.impute.SimpleImputer(missing_values=nan,strategy='mean',fill_value = None,copy=True)参数含义与输入missing_values缺失值的格式，默认为np.nanstratege填补缺失值的策略，默认为均值；mean代表均值，median代表

2020-06-16 09:58:03 846

原创数据预处理（一）：无量纲化

无量纲化1.介绍在机器学习算法中，往往需要将不同规格的数据转换为同一规格，或者将不同分布的数据转换到某个特定分布，这种需求统称为“无量纲化”。在以梯度与矩阵为核心的算法中，如逻辑回归、支持向量机、神经网络，无量纲化可以加快求解速度；而在距离类模型中，如K近邻、Kmeans中，无量纲化可以避免某个取值范围特别大的特征对距离计算造成影响，提高模型的精度。2.数据归一化x∗=x−min(x)max(x)−min(x)x^*={x-min(x)\over{max(x) - min(x)}}x∗=max(x

2020-06-15 18:06:28 3707

分娩胎次及季节对法系长白母猪繁殖性能的影响

母猪繁殖力的高低是影响猪场经济效益的关键因素。母猪繁殖力受猪的品种、营养与饲料、分娩胎次、配种产仔季节、疾病、猪场饲养及管理水平、配种公猪的精液质量等多种因素影响。在其他条件一致的情况下，本文对菏泽宏兴原种猪繁育有限公司 2013—2014 年法系长白母猪 1 992 窝次的生产繁殖成绩进行整理、统计分析，旨在阐明母猪分娩胎次及产仔季节对其繁殖性能的影响，为养猪生产提供技术

2018-05-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 数据预处理（四）：处理连续型特征

原创 数据预处理（三）：字符型特征处理

原创 数据预处理（二）：缺失值处理