逻辑回归LR的特征为什么要先离散化

转载 2015年11月19日 20:15:10

在工业界,很少直接将连续值作为特征喂给逻辑回归模型,而是将连续特征离散化为一系列0、1特征交给逻辑回归模型,这样做的优势有以下几点:

1. 稀疏向量内积乘法运算速度快,计算结果方便存储,容易scalable(扩展)。

2. 离散化后的特征对异常数据有很强的鲁棒性:比如一个特征是年龄>30是1,否则0。如果特征没有离散化,一个异常数据“年龄300岁”会给模型造成很大的干扰。

3. 逻辑回归属于广义线性模型,表达能力受限;单变量离散化为N个后,每个变量有单独的权重,相当于为模型引入了非线性,能够提升模型表达能力,加大拟合。

4. 离散化后可以进行特征交叉,由M+N个变量变为M*N个变量,进一步引入非线性,提升表达能力。

5. 特征离散化后,模型会更稳定,比如如果对用户年龄离散化,20-30作为一个区间,不会因为一个用户年龄长了一岁就变成一个完全不同的人。当然处于区间相邻处的样本会刚好相反,所以怎么划分区间是门学问。

李沐少帅指出,模型是使用离散特征还是连续特征,其实是一个“海量离散特征+简单模型” 同 “少量连续特征+复杂模型”的权衡。既可以离散化用线性模型,也可以用连续特征加深度学习。就看是喜欢折腾特征还是折腾模型了。通常来说,前者容易,而且可以n个人一起并行做,有成功经验;后者目前看很赞,能走多远还须拭目以待。

大概的理解:

1)计算简单

2)简化模型

3)增强模型的泛化能力,不易受噪声的影响

相关文章推荐

逻辑回归LR的特征为什么要先离散化

在工业界,很少直接将连续值作为特征喂给逻辑回归模型,而是将连续特征离散化为一系列0、1特征交给逻辑回归模型,这样做的优势有以下几点: 1. 稀疏向量内积乘法运算速度快,计算结果方便存储,容易sc...

Sklearn-CrossValidation交叉验证

交叉验证概述 进行模型验证的一个重要目的是要选出一个最合适的模型,对于监督学习而言,我们希望模型对于未知数据的泛化能力强,所以就需要模型验证这一过程来体现不同的模型对于未知数据的表现效果。 最先我...
  • CherDW
  • CherDW
  • 2017-02-11 21:08
  • 3971

MFC控件(13):Progress Control与Slider Control

Progress Control 当有比较耗时的操作在进行时,一般会给用户点提示信息,表示你正在操作,而不是卡死在那了.最常用的提示信息是进度条了.另外进度条一般与Timer一起用,因为要过会自动刷...

用Python开始机器学习(7:逻辑回归分类)

在本系列文章中提到过用Python开始机器学习(3:数据拟合与广义线性回归)中提到过回归算法。逻辑回归算法本质还是回归,只是其引入了逻辑函数来帮助其分类。实践发现,逻辑回归在文本分类领域表现的也很优秀...
  • lsldd
  • lsldd
  • 2014-11-27 22:12
  • 32250

CPPUnit用法简介

CPPUnit是一个开源的C++单元测试工具.实际上是一些dll,你要写单元测试时调用它的一些类就行.跟我们平时使用一般的dll文件类似. 下面的详细的使用步骤,参考了别人两篇博客写出来的. ...

MFC日历控件简介

本文详细阐述了基本日历控件的属性、方法以及简易使用代码。 Win32API提供了一个显示日期的日历控件,日期的显示模式是基于控制面板中的区域性设置或者说是依赖于用户的操作系统。 CMonthCal...

TensorFlow实践:经典CNN-AlexNet

AlexNetAlexNet在2012年被提出,并且它以显著的优势赢得了,2012年的ILSCRC比赛的冠军 AlexNet把CNN的基本原理应用到了更深的网络当中,并加入了一些新技术:  ...

Tensorflow学习系列(二): tensorflow基础

如需转载,请注明出处,欢迎加入深度学习群 255568483 Graph basics由nodes(结点)和Edges(边缘)组成。 用一个简单的例子来讲解:   数据从左到右,请参见...

VC++ 非模态对话框

声明:本人一个菜鸟,网上搜罗了很多关于VC++编程的资料,可每本资料都是涵盖面太广,难以细致。英语又太烂,所以不得意只得摸索,恐又忘记所以记在此处,若有不对的地方,烦劳指出,不胜感激。 author...

ML大杂烩:**常见机器学习算法公式梳理

找工作时(IT行业),除了常见的软件开发以外,机器学习岗位也可以当作是一个选择,不少计算机方向的研究生都会接触这个。本文写出常见데机器学习데公式表示:1.朴素贝叶斯;2. 决策树;3.Logisiti...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:深度学习:神经网络中的前向传播和反向传播算法推导
举报原因:
原因补充:

(最多只允许输入30个字)