一、logistics回归
与回归一样都是有指导的学习,给定x需要预测Y的值 or Y的发生概率(也就是Y属于哪一类,接近1属于,,接近0属于,,)。
一般的回归模型只是对Y建模,logistics回归对Y的概率建模,所以希望其在[0,1]。
使用logistics函数,其可以让概率在[0,1],所以回归模型:p(x)=e**(beta0+beta1*x)/(1+e**(beta0+beta1*x)),经过变换得到对数发生比形式:log(p(x)/1-p(x))=beta0+beta1*x
系数估计方法:极大似然法(思想:寻求一个估计,使得得到的预测概率与真实发生的概率接近)
缺点:常适用只有两类的分类,多类的可寻求他法。
二、kmeans
首先要想好要分几类 K
具体算法:
(1)为每个观测值随机分配1~K的数字,也就是随机分类
(2)重复以下,直到分类停止
a.分别计算K个类的类中心
b.将每个观测分配到距离最近的类中心处
由于最开始分类是随机的,且目标是局部最优not全局最优,所以不同开始状态,得到最终的目标值不同,可多重复实验几次。
缺点:不能有效的处理干扰