特征组合&特征交叉 (Feature Crosses)

写在前面:之前收藏了一个网友些的谷歌机器学习总结教程(感恩),可是突然断更了,只能自己补完后面的笔记了。特征组合也叫特征交叉特征组合也叫特征交叉特征组合也叫特征交叉(说三遍)合成特征 (synthetic feature)和特征组合(Feature Crosses)不太一样,特征交叉是特征组合的一个子集。合成特征 (syntheti...
摘要由CSDN通过智能技术生成

写在前面:之前收藏了一个网友些的谷歌机器学习总结教程(感恩),可是突然断更了,只能自己补完后面的笔记了。

特征组合也叫特征交叉
特征组合也叫特征交叉
特征组合也叫特征交叉(说三遍)

合成特征 (synthetic feature)和特征组合(Feature Crosses)不太一样,特征交叉是特征组合的一个子集。

合成特征 (synthetic feature)

一种特征,不在输入特征之列,而是从一个或多个输入特征衍生而来。通过标准化或缩放单独创建的特征不属于合成特征。合成特征包括以下类型:

  • 将一个特征与其本身或其他特征相乘(称为特征组合)。
  • 两个特征相除。
  • 对连续特征进行分桶,以分为多个区间分箱。

特征组合 (feature cross):对非线性规律进行编码

  • 通过将单独的特征进行组合(相乘或求笛卡尔积)而形成的合成特征。特征组合有助于表示非线性关系。

对于下面的非线性问题。线性学习器画的任何一条线都不能很好地预测树的健康状况。

clipboard.png

要解决上图所示的非线性问题,可以创建一个特征组合。特征组合是指通过将两个或多个输入特征相乘来对特征空间中的非线性规律进行编码的合成特征。“cross”(组合)这一术语来自 cross product(向量积)。我们通过将 与 组合来创建一个名为x3的特征组合:
x3 = x1x2

我们像处理任何其他特征一样来处理这个新建的x3特征组合。线性公式变为:
y = b + w1x1 + w2x2 + w3x3

虽然w3表示非线性信息,但您不需要改变线性模型的训练方式来确定w3的值。

特征组合的种类

通过采用随机梯度下降法,可以有效地训练线性模型。因此,在使用扩展的线性模型时辅以特征组合一直都是训练大规模数据集的有效方法。我们可以创建很多不同种类的特征组合。例如:

  • [A X B]:将两个特征的值相乘形成的特征组合。
  • [A x B x C x D x E]:将五个特征的值相乘形成的特征组合。
  • [A x A]:对单个特征的值求平方形成的特征组合。

特征组合 (Feature Crosses):组合独热矢量

在实践中,机器学习模型很少会组合连续特征。不过,机器学习模型却经常组合独热特征矢量,将独热特征矢量的特征组合视为逻辑连接.例如,假设我们具有以下两个特征:国家/地区和语言。对每个特征进行独热编码会生成具有二元特征的矢量,这些二元特征可解读为 country=USA, country=France 或language=English,language=Spanish。然后,如果您对这些独热编码进行特征组合,则会得到可解读为逻辑连接的二元特征,如下所示:

country:usa AND language:spanish

再举一个例子,假设您对纬度和经度进行分箱,获得单独的独热 5 元素特征矢量。例如,指定的纬度和经度可以表示如下:

binned_latitude = [0, 0, 0, 1, 0]
binned_longitude = [0, 1, 0, 0, 0]

假设您对这两个特征矢量创建了特征组合:

 binned_latitude X binned_longitude

此特征组合是一个 25 元素独热矢量(24 个 0 和 1 个 1)。该组合中的单个 1 表示纬度与经度的特定连接。然后,您的模型就可以了解到有关这种连接的特定关联性。

假设我们更粗略地对纬度和经度进行分箱,如下所示:

  • 5
    点赞
  • 65
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值