还记得一年前,我还是一个懵懂的小男孩,因为种种原因(其中包括主观原因,客观原因以及某些人类无法抗拒的原因)第一次接触数据挖掘,看起了《数据挖掘:实用机器学习技术》(Weka广告书)。其中一句话让我的人生观,世界观,爱情观发生了微微地颤抖:“事实上任何回归技术,都可以用来分类”,这是一句饱含马克思主义辩证思想结晶的论断。这告诉我们世界是辩证统一的,回归看似合二为一的过程,分类看似一分为二的过程,实际上矛盾双方是可以相互转化的,对立事物均有其共通点。(本段纯属瞎扯淡,请主动跳过)
有一种回归叫线性回归。线性回归对于二维空间线性是一条直线;对于三维空间线性是一个平面,对于多维空间线性是一个超平面,超越正常人类的世界认知能力的东西(简称“反人类”平面)。在爱因斯坦的正常人类无法理解的4维世界里做线性回归就是一个“反人类”平面。不完全正确地说,回归平面就是比维度空间少一维的东西。说起最简单的线性回归方法就是很久很久以前的童年老师跟我们讲的最小二乘法,还记得当年那一条神一般长度的公式和神一般的计算量。实际上,在复杂的社会主义世界中,线性模型在现实数据挖掘中显得太单薄了,存在许多缺陷。但对于我们美好现实世界中多样化的非线性关系,许多都可以经过一系列的映射处理转化为线性关系。
有一种分类叫Logistic回归。回归到分类是一个过程,一个充满智慧的过程。对训练集中每一小类执行回归得各类回归曲线,在各类回归中属于该类的内标1,否则标0;对测试集经各类回归函数计算得属于各类的从属关系,判断从属强度进行分类。一般的回归方法存在以下两个Bug:1、分类的从属关系不一定落在0-1之间;2、观测值二值分布,违背统计独立假设。聪明的地球人发明了一种叫做Logistic回归的东西,在一个经转换的目标变量上建立线性模型,将0→1映射到-∞→+∞
回归目标变量
![](https://img-my.csdn.net/uploads/201212/01/1354364771_6715.png)
Logit变换
![](https://img-my.csdn.net/uploads/201212/01/1354365370_9219.png)
![](https://img-my.csdn.net/uploads/201212/01/1354365638_2909.png)
模型参数求解过程使用最大对数似然,当对数似然最大时为最优解,对数似然公式如下
![](https://img-my.csdn.net/uploads/201212/01/1354365933_5921.png)
从富士康看Logistic回归。理论指导实践,实践检验真理。这里以经典logiistic回归经典案例——富士康跳楼事件做分析(详见
百度百科
)。众所周知,钱是一切罪恶的根源,有钱能使鬼推磨,没钱会逼人跳楼。以下数据纯粹个人主观臆造,仅供娱乐,不供评论。
臆造数据,仅供娱乐
工资 | 25041 | 500 | 2250 | 4250 | 3000 | 250.41 | 5000 | 4500 | 4000 |
跳楼 | No | Yes | Yes | Yes | No | Yes | No | No | No |
![](https://img-my.csdn.net/uploads/201212/01/1354366108_7905.png)
当上式取最大值时(此处省略1000字),w0、w1为最优解,代入
,可得
![](https://img-my.csdn.net/uploads/201212/01/1354364771_6715.png)
![](https://img-my.csdn.net/uploads/201212/01/1354366376_2199.png)
,其中Logistic回归的决策边界设计预测概率为0.5处,即-w0-w1a=0。
(本人第一篇科普博客,实际上我也是略懂略懂,似懂非懂,欢迎交流,欢迎灌水,欢迎拍砖)