小洛写在前面:
很多同学目前所做的业务分析工作,徒手分析即可cover业务需求,较少用到一些高阶的统计模型和机器学习上面的东西。渐渐的便会产生一种感觉,即数据分析满足业务需求即可,不需要会机器学习。
但我认为
1、目前的工作不需要,不代表之后的工作不需要,我们应该着眼于我们整个数据分析生涯 ;
2、掌握一些模型可以高效做一些定量分析,较徒手分析效率更高,更准 ;
3、我们觉得一些东西没用,很可能是因为我们还没有发现如何去用 ;
4、我们对自己的要求不应该止于满足业务需求,一些探索性专题非常依赖于机器学习 ;
基于以上,我尝试开始更新一些机器学习方面的文章,从较基础的线性回归、决策树等开始,希望大家可以跟着小洛一起学习,有疑问大家可以随时在交流群提~
一、什么是线性回归
线性回归是利用线性的方法,模拟因变量与一个或多个自变量之间的关系。对于模型而言,自变量是输入值,因变量是模型基于自变量的输出值,适用于x和y满足线性关系的数据类型的应用场景。
线性回归应用于数据分析的场景主要有两种:
驱动力分析:某个因变量指标受多个因素所影响,分析不同因素对因变量驱动力的强弱(驱动力指相关性,不是因果性);
预测:自变量与因变量呈线性关系的预测;
模型数学形式:????=????0+????1????1+????2????2+⋯+????????????????
例如要衡量不同的用户特征对满意分数的影响程度,转换成线性模型的结果可能就是:分数=-2.1+0.56*年龄
线性回归模型分为一元线性回归与多元线性回归:区别在于自变量的个数
二、线性系数的计算-最小二乘法
我们知道了模型的公式,那么模型的系数是如何得来呢?我们用最小二乘法来确定模型的系数。最小二乘法,它通过最小化误差的平方和寻找数据的最佳函数匹配,利用最小二乘法可以求得一条直线,并且使得拟合数据与实