统计学习小笔记——分类篇

一、logistics回归

与回归一样都是有指导的学习,给定x需要预测Y的值 or Y的发生概率(也就是Y属于哪一类,接近1属于,,接近0属于,,)。

一般的回归模型只是对Y建模,logistics回归对Y的概率建模,所以希望其在[0,1]。

使用logistics函数,其可以让概率在[0,1],所以回归模型:p(x)=e**(beta0+beta1*x)/(1+e**(beta0+beta1*x)),经过变换得到对数发生比形式:log(p(x)/1-p(x))=beta0+beta1*x

系数估计方法:极大似然法(思想:寻求一个估计,使得得到的预测概率与真实发生的概率接近)

缺点:常适用只有两类的分类,多类的可寻求他法。

二、kmeans

首先要想好要分几类 K

具体算法:

(1)为每个观测值随机分配1~K的数字,也就是随机分类

(2)重复以下,直到分类停止

        a.分别计算K个类的类中心

        b.将每个观测分配到距离最近的类中心处

由于最开始分类是随机的,且目标是局部最优not全局最优,所以不同开始状态,得到最终的目标值不同,可多重复实验几次。

缺点:不能有效的处理干扰


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值