关闭

机器学习——连续型特征离散化

1931人阅读 评论(0) 收藏 举报
分类:

在特征工程中,特别是logistic regression上,需要把一些连续特征进行离散化处理。离散化除了一些计算方面等等好处,还可以引入非线性特性,也可以很方便的做cross-feature。离散特征的增加和减少都很容易,易于模型的快速迭代。此外,噪声很大的环境中,离散化可以降低特征中包含的噪声,提升特征的表达能力。

连续特征离散化最常用的方法:

(1)划分区间

如1-100岁可以划分为:(0-18)未成年、(18-50)中青年、(50-100)中老年.

这其中包括等距划分、按阶段划分、特殊点划分等。

(2)卡方检验(CHI)

分裂方法,就是找到一个分裂点看,左右2个区间,在目标值上分布是否有显著差异,有显著差异就分裂,否则就忽略。这个点可以每次找差异最大的点。合并类似,先划分如果很小单元区间,按顺序合并在目标值上分布不显著的相邻区间,直到收敛。卡方值通常由χ2分布近似求得

χ2表示观察值与理论值之问的偏离程度。计算这种偏离程度的基本思路如下:

(1)设A代表某个类别的观察频数,E代表基于H0计算出的期望频数,A与E之差称为残差

(2)显然,残差可以表示某一个类别观察值和理论值的偏离程度,但如果将残差简单相加以表示各类别观察频数与期望频数的差别,则有一定的不足之处。因为残差有正有负,相加后会彼此抵消,总和仍然为0,为此可以将残差平方后求和

(3)另一方面,残差大小是一个相对的概念,相对于期望频数为10时,期望频数为20的残差非常大,但相对于期望频数为1 000时20的残差就很小了。考虑到这一点,人们又将残差平方除以期望频数再求和,以估计观察频数与期望频数的差别。

进行上述操作之后,就得到了常用的χ2统计量,由于它最初是由英国统计学家Karl Pearson在1900年首次提出的,因此也称之为Pearson χ2,其计算公式为

\chi^2=\sum \frac{(A-E)^2}{E}=\sum_{i=1}^k \frac{(A_i-E_i)^2}{E_i}=\sum_{i=1}^k \frac{(A_i-np_i)^2}{np_i}  (i=1,2,3,…,k)

当n比较大时,χ2统计量近似服从k-1(计算Ei时用到的参数个数)个自由度的卡方分布。

(3)信息增益法(IG)

这个和决策树的学习很类似。分裂方法,就是找到一个分裂点看,左右2个区间,看分裂前后信息增益变化阈值,如果差值超过阈值(正值,分列前-分裂后信息熵),则分裂。每次找差值最大的点做分裂点,直到收敛。合并类似,先划分如果很小单元区间,按顺序合并信息增益小于阈值的相邻区间,直到收敛。

gain(X)=info(S)-info_x (S),信息增益为总的熵减去某个分类标准对应的熵。

熵:

clip_image002

条件熵:

clip_image004

-------------------另一种记法----------------------



信息增益比率实际在信息增益的基础上,又将其除以一个值,这个值一般被称为为分裂信息量




0
0
查看评论

连续特征离散化的方法

在FFM算法编码之前突然考虑到标准化的问题,例如大多数的属性都是0-1,出现的部分连续属性比如价格可能会很大,这些的情况会不会影响FFM的结果。 首先在网上搜了一下,连续特征离散化处理起到的效果是什么,这里引用一下知乎的回答 作者:严林 链接:https://www.zhihu.com/q...
  • u013818406
  • u013818406
  • 2017-04-23 11:37
  • 2301

连续特征离散化和归一化

连续特征进行离散化处理。
  • hero_fantao
  • hero_fantao
  • 2014-06-25 22:12
  • 5968

机器学习——连续型特征离散化

在特征工程中,特别是logistic regression上,需要把一些连续特征进行离散化处理。离散化除了一些计算方面等等好处,还可以引入非线性特性,也可以很方便的做cross-feature。离散特征的增加和减少都很容易,易于模型的快速迭代。此外,噪声很大的环境中,离散化可以降低特征中包含的噪声,...
  • ztf312
  • ztf312
  • 2017-01-03 09:38
  • 1931

连续特征进行离散化的方法介绍与应用例子

RT,尤其在logistic regression上,需要把一些连续特征进行离散化处理。离散化除了一些计算方面等等好处,还可以引入非线性特性,也可以很方便的做cross-feature。 连续特征离散化处理有什么好的方法, 有时候为什么不直接归一化? 这里主要说明监督的变换方法; ...
  • shenxiaoming77
  • shenxiaoming77
  • 2016-04-08 17:07
  • 6528

连续特征离散化达到更好的效果,特征选择的工程方法

http://www.zhihu.com/question/31989952 连续特征的离散化:在什么情况下将连续的特征离散化之后可以获得更好的效果? Q:CTR预估,发现CTR预估一般都是用LR,而且特征都是离散的。为什么一定要用离散特征呢?这样做的好处在哪里? A: 在工业界,很少直接将连续值...
  • lujiandong1
  • lujiandong1
  • 2015-11-23 13:19
  • 5329

特征离散化系列(一)方法综述

对现存的离散化方法进行概述总结,对现有离散化方法进行归类的层次化结构描述(hierarchical framework),为进一步发展铺路(pave the way),对典型的离散化方法(representative discretization methods)的简要讨论,大量的试验和分析,在不同...
  • CalCuLuSearch
  • CalCuLuSearch
  • 2016-10-07 18:56
  • 4333

连续特征的离散化:在什么情况下将连续的特征离散化之后可以获得更好的效果?

参考:https://www.zhihu.com/question/31989952/answer/54184582 在工业界,很少直接将连续值作为逻辑回归模型的特征输入,而是将连续特征离散化为一系列0、1特征交给逻辑回归模型,这样做的优势有以下几点: 0. 离散特征的增加和减少都很容易,易于模型...
  • xbmatrix
  • xbmatrix
  • 2017-04-05 23:22
  • 654

特征工程之连续特征与离散特征处理方法介绍

下面一篇是关于连续特征与离散特征处理的论文: Before I answer the above question, let us go through some basic ideas. Why do we binarize categorical features? We binari...
  • shenxiaoming77
  • shenxiaoming77
  • 2016-04-11 15:17
  • 3008

处理离散型特征和连续型特征共存的情况 归一化 论述了对离散特征进行one-hot编码的意义

处理离散型特征和连续型特征并存的情况,如何做归一化。 参考博客进行了总结: https://www.quora.com/What-are-good-ways-to-handle-discrete-and-continuous-inputs-together 总结如下: 1、拿到获取的原始特征,必须对...
  • lujiandong1
  • lujiandong1
  • 2015-10-27 14:45
  • 3451

对于特征离散化,特征交叉,连续特征离散化非常经典的解释

一.互联网广告特征工程 博文《互联网广告综述之点击率系统》论述了互联网广告的点击率系统,可以看到,其中的logistic regression模型是比较简单而且实用的,其训练方法虽然有多种,但目标是一致的,训练结果对效果的影响是比较大,但是训练方法本身,对效果的影响却不是决定性的,因为训练的是每...
  • lujiandong1
  • lujiandong1
  • 2016-09-02 11:05
  • 6171
    个人资料
    • 访问:671306次
    • 积分:8869
    • 等级:
    • 排名:第2571名
    • 原创:284篇
    • 转载:96篇
    • 译文:19篇
    • 评论:135条
    博客专栏