常用的特征工程方法.梯度下降法个牛顿法的比较

最新推荐文章于 2020-08-14 18:58:50 发布

一元二肆

最新推荐文章于 2020-08-14 18:58:50 发布

阅读量294

点赞数

本文链接：https://blog.csdn.net/TENapples/article/details/103074120

版权

数据是信息的载体，但是原始的数据包含了大量的噪声，信息的表达也不够简练。因此，特征工程的目的，是通过一系列的工程活动，将这些信息使用更高效的编码方式（特征）表示。使用特征表示的信息，信息损失较少，原始数据中包含的规律依然保留。此外，新的编码方式还需要尽量减少原始数据中的不确定因素（白噪声、异常数据、数据缺失…等等）的影响。

2.常用方法

1). 时间戳处理
时间戳属性通常需要分离成多个维度比如年、月、日、小时、分钟、秒钟。但是在很多的应用中，大量的信息是不需要的。比如在一个监督系统中，尝试利用一个’位置+时间‘的函数预测一个城市的交通故障程度

2). 分解类别属性
一些属性是类别型而不是数值型，举一个简单的例子，由{红，绿、蓝}组成的颜色属性，最常用的方式是把每个类别属性转换成二元属性，即从{0,1}取一个值。因此基本上增加的属性等于相应数目的类别，并且对于你数据集中的每个实例，只有一个是1（其他的为0），这也就是独热（one-hot)编码方式（类似于转换成哑变量）。
如果你不了解这个编码的话，你可能会觉得分解会增加没必要的麻烦（因为编码大量的增加了数据集的维度）。相反，你可能会尝试将类别属性转换成一个标量值，例如颜色属性可能会用{1,2,3}表示{红，绿，蓝}。这里存在两个问题，首先，对于一个数学模型，这意味着某种意义上红色和绿色比和蓝色更“相似”（因为|1-3| > |1-2|）。除非你的类别拥有排序的属性（比如铁路线上的站），这样可能会误导你的模型。然后，可能会导致统计指标（比如均值）无意义，更糟糕的情况是，会误导你的模型。还是颜色的例子，假如你的数据集包含相同数量的红色和蓝色的实例，但是没有绿色的，那么颜色的均值可能还是得到2，也就是绿色的意思。
能够将类别属性转换成一个标量，最有效的场景应该就是只有两个类别的情况。即{0,1}对应{类别1，类别2}。这种情况下，并不需要排序，并且你可以将属性的值理解成属于类别1或类别2的概率。

3).分箱/分区
有时候，将数值型属性转换成类别呈现更有意义，同时能使算法减少噪声的干扰，通过将一定范围内的数值划分成确定的块。举个例子，我们预测一个人是否拥有某款衣服，这里年龄是一个确切的因子。其实年龄组是更为相关的因子，所有我们可以将年龄分布划分成1-10,11-18,19-25,26-40等。而且，不是将这些类别分解成2个点，你可以使用标量值，因为相近的年龄组表现出相似的属性。
只有在了解属性的领域知识的基础，确定属性能够划分成简洁的范围时分区才有意义。即所有的数值落入一个分区时能够呈现出共同的特征。在实际应用中，当你不想让你的模型总是尝试区分值之间是否太近时，分区能够避免出现过拟合。例如，如果你所感兴趣的是将一个城市作为整体，这时你可以将所有落入该城市的维度值进行整合成一个整体。分箱也能减小小错误的影响，通过将一个给定值划入到最近的块中。如果划分范围的数量和所有可能值相近，或对你来说准确率很重要的话，此时分箱就不适合了。
4). 交叉特征
交叉特征算是特征工程中非常重要的方法之一了，交叉特征是一种很独特的方式，它将两个或更多的类别属性组合成一个。当组合的特征要比单个特征更好时，这是一项非常有用的技术。数学上来说，是对类别特征的所有可能值进行交叉相乘。
假如拥有一个特征A,A有两个可能值{A1，A2}。拥有一个特征B，存在{B1，B2}等可能值。然后，A&B之间的交叉特征如下：{（A1，B1），（A1，B2），（A2，B1），（A2，B2）}，并且你可以给这些组合特征取任何名字。但是需要明白每个组合特征其实代表着A和B各自信息协同作用。

5). 特征选择
为了得到更好的模型，使用某些算法自动的选出原始特征的子集。这个过程，你不会构建或修改你拥有的特征，但是会通过修剪特征来达到减少噪声和冗余。
那些和我们解决的问题无关需要被移除的属性，在我们的数据特征中存在了一些特征对于提高模型的准确率比其他更重要的特征，也还有一些特征与其他特征放在一起出现了冗余，特征选择是通过自动选出对于解决问题最有用的特征子集来解决上述问题的。
特征选择算法可能会用到评分方法来排名和选择特征，比如相关性或其他确定特征重要性的方法，更进一步的方法可能需要通过试错，来搜索出特征子集。
还有通过构建辅助模型的方法，逐步回归就是模型构造过程中自动执行特征选择算法的一个实例，还有像Lasso回归和岭回归等正则化方法也被归入到特征选择，通过加入额外的约束或者惩罚项加到已有模型（损失函数）上，以防止过拟合并提高泛化能力。
6). 特征缩放
有时候，你可能会注意到某些特征比其他特征拥有高得多的跨度值。举个例子，将一个人的收入和他的年龄进行比较，更具体的例子，如某些模型（像岭回归）要求你必须将特征值缩放到相同的范围值内。通过缩放可以避免某些特征比其他特征获得大小非常悬殊的权重值。
7). 特征提取
特征提取涉及到从原始属性中自动生成一些新的特征集的一系列算法，降维算法就属于这一类。特征提取是一个自动将观测值降维到一个足够建模的小数据集的过程。对于列表数据，可使用的方法包括一些投影方法，像主成分分析和无监督聚类算法。对于图形数据，可能包括一些直线检测和边缘检测，对于不同领域有各自的方法。
特征提取的关键点在于这些方法是自动的（虽然可能需要从简单方法中设计和构建得到），还能够解决不受控制的高维数据的问题。大部分的情况下，是将这些不同类型数据（如图，语言，视频等）存成数字格式来进行模拟观察。
总结:在不同情况下使用不同的方法能使效率更高,效果更好

梯度下降与牛顿法

1.梯度下降

通过搜索方向和步长来对参数进行更新。其中搜索方向是目标函数在当前位置的负梯度方向。因为这个方向是最快的下降方向。步长确定了沿着这个搜索方向下降的大小。
　　　　迭代的过程就像是在不断的下坡，最终到达坡地。

2.牛顿法

首先牛顿法是求解函数值为0时的自变量取值的方法。
利用牛顿法求解目标函数的最小值其实是转化成求使目标函数的一阶导为0的参数值。这一转换的理论依据是，函数的极值点处的一阶导数为0.
其迭代过程是在当前位置x0求该函数的切线，该切线和x轴的交点x1，作为新的x0,重复这个过程，直到交点和函数的零点重合。此时的参数值就是使得目标函数取得极值的参数值。

3.两者的区别

牛顿法：1)是通过求解目标函数的一阶导数为0时的参数，进而求出目标函数最小值时的参数。
2)收敛速度很快。
3)海森矩阵的逆在迭代过程中不断减小，可以起到逐步减小步长的效果
缺点：海森矩阵的逆计算复杂，代价比较大，因此有了拟牛顿法。
梯度下降法：1)是通过梯度方向和步长，直接求解目标函数的最小值时的参数。
2)越接近最优值时，步长应该不断减小，否则会在最优值附近来回震荡

总结:梯度下降的方法有3种,不同情况下的使用,效果可能会大于牛顿法,但是牛顿发在迭代的过程中更加稳定

一元二肆

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
常用的特征工程方法.梯度下降法个牛顿法的比较

目录1.常用的特征工程方法都有哪些，举例说明2.梯度下降法和牛顿法的比较3.xgboost算法过程推导特征工程1.定义:数据是信息的载体，但是原始的数据包含了大量的噪声，信息的表达也不够简练。因此，特征工程的目的，是通过一系列的工程活动，将这些信息使用更高效的编码方式（特征）表示。使用特征表示的信息，信息损失较少，原始数据中包含的规律依然保留。此外，新的编码方式还需要尽量减少原始数据中...
复制链接

扫一扫