分类、聚类模型

分类、聚类模型一、分类模型(1)逻辑回归(2)举个逻辑回归的例子--水果分类(3)Fisher线性判别分析(4)举个Fisher线性判断的例子二、聚类模型(1)K-means聚类算法(2)K-means++算法(3)举个例子--K-means++聚类算法(4)系统层次聚类1、样品与样品之间常用的距离计算方法2、指标与指标常用的距离计算方法3、类与类之间常用的距离4、最短距离系统聚类法5、最长距离系统聚类法6、聚类分析需要主意的问题7、对系统聚类举个例子8、肘部法则--那怎么判断K值是合适的?9、系统聚类法的
摘要由CSDN通过智能技术生成

一、分类模型

(1)逻辑回归

直接使用原来的回归模型进行回归,这时的因变量y只能取0或者是1,这回存在内生性问题,这会造成估计出的回归系数不一致并且有偏:

对于一个线性回归方程:
在这里插入图片描述
在概率论与数理统计中,对于二值的事件存在一个两点分布(伯努利分布),映射到0-1的二值问题,同样可以将他们结合:
在这里插入图片描述
这里的F称作连接函数,它将解释变量X和被解释变量Y连接在一起,同样的考虑到二值分布和0-1因变量的取值限制,在数理统计中,两点分布的期望计算方式是:
两点分布的期望 = 1 * P(事件1的发生概率)+ 0 * P(事件0的发生概率 = 事件1的发生概率

通过两点分布的期望计算方式我们可以讲预测值y 理解为 y=1的发生概率。

所以对于连接函数我们只需要保证连接函数F是一个定义在[0,1]上的函数,即保证F函数的值域是在[0,1]上。

通过上述的分析连接函数可以有两种取法:一种是probit回归,另外一种是logistic回归。
在这里插入图片描述
对于上述两种回归,后者logsitic回归更为常用,所以后面仅记录logsitic的计算。

那么逻辑回归是如何求解的?
对于非线性模型,使用的是极大似然估计(MLE)进行估计:
在这里插入图片描述

那么如何应用于分类?
在这里插入图片描述
我们计算出的的预测值就是事件1发生的概率(参考一下概率论中两点分布的思维~),那么我们可以以0.5作为一个分界线,若事件1的计算值超过0.5,即事件1的发生概率超过0.5,那么我们认为这件事情发生了,若小于0.5我们认为这件事没有发生,就是事件2发生了。

(2)举个逻辑回归的例子–水果分类

在这里插入图片描述
预测成功率,我们将0看作是橙子,将1看作是苹果。
在这里插入图片描述
逻辑回归系数表,就是回归方程前的系数。
在这里插入图片描述
如果使用逻辑回归出的结果很差怎么办?
可以在logistic回归模型中添加平方项、交互项等,但是这回出现一个过拟合的问题,虽然使得回归模型能够以较高的准确率预测样本数据,但是对于新数据并不能很好的预测。

假设我们对上面的例子添加平方向后:、
在这里插入图片描述
我们添加平方项后,预测的准确率达到了100%,模型对于样本数据的预测非常好,但是对于样本外的数据预测效果可能会很差。结论就是添加高次或者是交互项后,虽然预测的能力提高了但是容易发生过拟合现象,这又再一次提醒在回归里不能随意的添加高次、交互项等,每一步操作必须有理有据。

那如何选择和确定合适的模型?
交叉验证:把数据分为训练组和测试组,使用训练组的数据来估计出模型,然后在使用测试组的数据进行测试,最终选择合适的模型。

那么对于上面的例子:
在这里插入图片描述
(为消除数据偶然性的影响,可以对上述步骤多重复几次,最终对每个模型求一个平均的准确率,这个步骤或者说这个思想称为交叉验证ÿ

  • 3
    点赞
  • 57
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值