白话机器学习算法（二十一）logistic回归

最新推荐文章于 2023-07-26 14:31:43 发布

jiabiao1602

最新推荐文章于 2023-07-26 14:31:43 发布

阅读量714

点赞数

分类专栏：数据挖掘算法

数据挖掘算法专栏收录该内容

25 篇文章 0 订阅

订阅专栏

http://blog.csdn.net/wangxin110000/article/details/38112519

我们知道最简单的线性回归 y=f（x）=wx+b,表示随着x的变化，y会随着变化，而且是确定的，即一对一的映射，x到y的映射

现在有一组<性别，是否有胡须>，我们实际上不好确定的说，男生就一定长胡须，女生就一定不长胡须，最好的办法是，知道了性别是男生后，我们可以认为，长胡须的概率比较大。反正如果知道了女生，那么长胡须的概率比较小。这样子的模型才适合真实情况。

我们希望一个概率模型，这个模型就是logistic回归模型，我们假定一个这样的概率模型，

p(y=1|x)=1/(1+exp(f(x)))

f(x)=wx+b

这个模型是分两步的，

首先x到f（x）的映射，然后f（x）到p(y=1|x)

给定训练数据集，我们可以实际得到p(y=1|x)的统计值，这个跟贝叶斯里面是一样的，

对于如下的式子

p(y=1|x)=1/(1+exp(f(x)))

问题就转化成知道左边，知道右边方程的形式，也知道x，就是不知道w和b，就变成了一个参数估计的问题了，怎么求呢？问题就变成了一个最小二乘法估计的问题。

前面的描述一定有一个问题，就是这个模型好像是凭空得来的，是不是所有的数据都可以用这个方法去拟合，去计算？

当然不是所有，但是现实生活中的大部分可以，logistic经过三个过程，平缓，快速，平缓，这种模型在经济上，是非常常见的，另外举个关于人的幸福感随着收入，家庭和睦，父母健康程度，朋友数目，等等这些因素变化的例子，研究表明，尽管后面因素的增加，会增加幸福感，但是不是纯线性递增，增长有慢有缓。

另外一个逻辑回归的自变量是整个实数域，因变量是离散的，这点与分类有所区别。基本上对于属性连续型我们可以用回归，属性离散的可以用分类。

数据挖掘，机器学习的算法非常多，但是不是拿来就用，应该首先了解算法的特性，使用范围，再看数据来源，什么特点，这个算法是否符合这种数据，再决定使用哪种模型

比如聚类算法数十中，基于图的，基于概率的，基于神经网络模型的，等等，但是有的算法适合小数据，有的要求计算矩阵特征值，有的是多次迭代，不同的算法有不同的应用范围，原理不同，精确度也不同，计算复杂度也不同，对于数十上百万的样本集合，其实可选的模型并不多，这就要对数据了解，对模型了解.

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
白话机器学习算法（二十一）logistic回归

http://blog.csdn.net/wangxin110000/article/details/38112519我们知道最简单的线性回归 y=f（x）=wx+b,表示随着x的变化，y会随着变化，而且是确定的，即一对一的映射，x到y的映射现在有一组，我们实际上不好确定的说，男生就一定长胡须，女生就一定不长胡须，最好的办法是，知道了性别是男生后，我们可以认为，长胡
复制链接

扫一扫

专栏目录

jiabiao1602 CSDN认证博客专家 CSDN认证企业博客

码龄15年

65: 原创

1万+: 周排名

5370: 总排名

84万+: 访问

: 等级

6967: 积分

456: 粉丝

311: 获赞

66: 评论

1454: 收藏

私信

关注

热门文章

分类专栏

最新评论

R语言：SMOTE - Supersampling Rare Events in R:用R对非平衡数据的处理方法
weixin_68381726: 运行到hyper<-replaceNAWithMean（hyper）报错了，Warning message: In mean.default(x[!is.na(x)]) : 参数不是数值也不是逻辑值：回覆NA 作者知道是怎么回事吗
R语言建立回归分析，并利用VIF查看共线性问题的例子
cyf123_: 您好，我用R语言中逐步回归（后退和步进都试了），做完后用VIF检验各变量为什么还是有共线性大于10的3个变量（年平均温度，年平均降水量和湿润指数），但是用SPSS就不会有这种情况。另外想请教一下R做逐步回归不会自动删除空值吗？会报错“Error in stepAIC(fit1, direction = "backward", na.action = na.omit) : number of rows in use has changed: remove missing values?”。期待您的回复，谢谢您
R在银行财务数据分析中的应用
m0_69770476: 求数据，谢谢
用gbm包来提升决策树能力
qq_28720457: 请问，如何参看样本内R方和样本外R方呢？
用gbm包来提升决策树能力
weixin_52304880: 您好，请问一下解释变量的重要程度一定要从best.iter来吗？而best.iter一定要从cv.fold来吗？因为我只要加了cv.fold，R就会停止运行，然后出现炸弹图标，如果删掉cv.fold就不会出现这个情况，但是我希望保留

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。