特征工程
火鸡哥
这个作者很懒,什么都没留下…
展开
-
数据增强
数据增强是从现有的训练样本中生成更多的训练数据,其方法是利用多种能够生成可信图像的随机变换来增加样本,其目标是让模型在训练时不会两次查看完全相同的图像。对于一张图片的样本数据,每次迭代时都会先随机变换,然后再输入网络,所以使用数据增强来训练一个新网络,那么该网络将不会两次看到同样的输入。在Keras中使用数据增强:from keras.preprocessing.image import I...原创 2019-12-24 17:40:58 · 328 阅读 · 0 评论 -
数据不平衡的处理方法
数据不平衡是指在分类中,各类别数据的样本量极不平衡(通常情况下把多数类样本的比例接近100:1这种情况下的数据称为不平衡数据)。比如二类分类,正类的样本数远远比负类的样本数,那对于一些模型(例如感知机),训练好的模型会偏向正类,所以数据不平衡会导致模型的乏化能力差。参考:https://www.cnblogs.com/kamekin/p/9824294.html...原创 2019-10-31 16:14:57 · 330 阅读 · 0 评论 -
特征相关性
在主成份分析、数据探索上,经常要探索特征与特征、特征与因变量之间的相关性。下面记录几种相关性探索的方法。方法一:单个特征与因变量的相关性直观显视import matplotlibimport matplotlib.pyplot as pltplt.style.use('fivethirtyeight')#设置数据可视化主题names = col_name.copy() # 列名nam...原创 2019-09-19 10:47:17 · 4396 阅读 · 1 评论 -
缺失值数据填充
处理缺失值的两种方法:1、删除缺失值的行;2、填充缺失值。如果缺失值的行占比较多,进行删除缺失值的话,将丢失大量的数据,这样得到的模型可能会很差;所以一般对缺失值的处理都是进行填充。数据可以分以下两类:1、数值数据;2、分类数据;1、填充数值数据的缺失值对于数值数据的填充,一般使用0、均值、中位数或众数来填充。方式一:from sklearn.preprocessing imp...原创 2019-09-23 17:25:36 · 2691 阅读 · 0 评论 -
特征转换
在原始数据中,有些特征需要转换,才能获取有用的信息。1、定类等级的编码对于定类数据,我们需要将其转换成数字特征,但却又不能使用有序数据,因为定类数据之间是没有层序关系的。这种情况下可以使用one-hot编码,pandas.get_dummies可以实现one-hot编码和虚拟编码。如下,x_city特征值是不相关的,2、定序等级的编码如下,dislike、somelike、like,都...原创 2019-09-24 17:44:06 · 764 阅读 · 0 评论 -
多项式特征
在使用单项式特征的时候,模型函数的型式是y=a∗x+b∗y+c∗z+dy = a*x+b*y+c*z+dy=a∗x+b∗y+c∗z+d,但我们还可以加入多项式作为新的特征,例如二项式增加以下特征[x∗y,x∗z,y∗z,x2,y2,z2][x*y,x*z,y*z,x^2,y^2,z^2][x∗y,x∗z,y∗z,x2,y2,z2]。在网络搜索中使用:from sklearn.pipeline...原创 2019-09-25 16:15:33 · 1380 阅读 · 0 评论