逻辑斯底回归的特征、多分类问题及过拟合问题

最新推荐文章于 2022-12-01 19:38:44 发布

keepreder

最新推荐文章于 2022-12-01 19:38:44 发布

阅读量4k

点赞数 1

分类专栏：机器学习文章标签：机器学习逻辑斯底回归经验大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/keepreder/article/details/47152751

版权

机器学习专栏收录该内容

23 篇文章 1 订阅

订阅专栏

首先，Logistic回归虽然名字里带“回归”，但是它实际上是一种分类方法，主要用于两分类问题，此外还能解决非线性问题。

LR分类器(Logistic Regression Classifier)目的就是从训练数据特征学习出一个0/1分类模型--这个模型以样本特征的线性组合作为自变量，使用logistic函数将自变量映射到(0,1)上。因此LR分类器的求解就是求解一组权值，当有一新样本过来时，首先将特征线性加权，然后代入Logistic函数，函数的输出值表示结果为1的概率，就是特征属于y=1的概率。

Logistic回归其优点是计算代价不高，易于理解和实现；其缺点是容易欠拟合，分类精度可能不高。

算法优化--随机梯度法

梯度上升（下降）算法在每次更新回归系数时都需要遍历整个数据集,该方法在处理100个左右的数据集时尚可，但如果有数十亿样本和成千上万的特征，那么该方法的计算复杂度就太高了。一种改进方法是一次仅用一个样本点来更新回归系数，该方法称为随机梯度算法。由于可以在新样本到来时对分类器进行增量式更新，它可以在新数据到来时就完成参数更新，而不需要重新读取整个数据集来进行批处理运算，因而随机梯度算法是一个在线学习算法。（与“在线学习”相对应，一次处理所有数据被称作是“批处理”）。随机梯度算法与梯度算法的效果相当，但具有更高的计算效率。

数据丢失处理方法

训练数据中样本特征值的部分缺失是很棘手的问题，很多文献致力于解决该问题，因为数据直接丢掉太可惜，重新获取代价也昂贵。一些可选的数据丢失处理方法包括：

□使用可用特征的均值来填补缺失值；

□使用特殊值来±真补缺失值，如-1;

□忽略有缺失值的样本；

□使用相似样本的均值添补缺失值；

□使用另外的机器学习算法预测缺失值。

损失函数

处理多分类问题

所谓one-vs-all method就是将binary分类的方法应用到多类分类中。

比如我想分成K类，那么就将其中一类作为positive，另（k-1）合起来作为negative，这样进行K个h(θ)的参数优化，每次得到的一个hθ(x)是指给定θ和x，它属于positive的类的概率。给定一个输入向量x，获得最大hθ(x)的类就是x所分到的类。

解决过拟合问题：

1. 减少feature个数（人工定义留多少个feature或者算法选取这些feature）

2. 正则化（留下所有的feature，但对于部分feature定义其parameter非常小）

PS：正则化之后就转化为了岭回归，类似的还有lasso回归等。

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
逻辑斯底回归的特征、多分类问题及过拟合问题

首先，Logistic回归虽然名字里带“回归”，但是它实际上是一种分类方法，主要用于两分类问题，此外还能解决非线性问题。LR分类器(Logistic Regression Classifier)目的就是从训练数据特征学习出一个0/1分类模型--这个模型以样本特征的线性组合作为自变量，使用logistic函数将自变量映射到(0,1)上。因此LR分类器的求解就是求解一组权值，当有一新样本过来时，首
复制链接

扫一扫

专栏目录

keepreder CSDN认证博客专家 CSDN认证企业博客

码龄9年

20: 原创

18万+: 周排名

35万+: 总排名

30万+: 访问

: 等级

1866: 积分

68: 粉丝

106: 获赞

20: 评论

381: 收藏

私信

关注

热门文章

分类专栏

机器学习 23篇
C++ 1篇
算法 1篇

最新评论

如何进行特征选择？
xiekunkun97097: 十分受用，博主分析很透彻，很全面，十分感谢！
逻辑回归和SVM的区别
weixin_49908796: 求问博主，对于SVM是不是硬间隔分类器对异常值敏感，软间隔分类器对异常值不敏感
逻辑回归与决策树在分类上的区别
YangRiriri: 厉害
用Hadoop流实现mapreduce版推荐系统基于物品的协同过滤算法
喋喋以喋以喋喋: 您好，可以分享下数据集吗
随机森林的优缺点
Modozil: 取值划分较多的属性不是可以用信息增益比来解决吗？把这个作为随机森林的特征切分点还是不行吗？

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。