翻译/编辑/原创Vivian Ouyang
这个介绍主要是方便刚入行的数据科学家。通过这个指导,使你直接解决机器学习的问题以及从中获得经验。而且我会尽量用简单易懂的方式来介绍每一个算法,不会涉及很多数学,而是帮助你从原理上理解每个算法,每一个算法都附上R和Python的程序来帮助你直接去应用程序解决问题。一般经常使用的机器学习算法有以下11种
1.线性回归Linear Regression
2.逻辑回归Logistic Regression
3. 决策树Decision Tree
4.随机森林Random Forest
5.支持向量机SVM
6.朴素贝叶斯Naive Bayes
7.最近邻居法KNN
8.K平均算法K-Means
9.神经网络Neural Networks
10.降维算法Dimensionality Reduction Algorithms
11.梯度提升Gradient Boost & Adaboost
第二期我们介绍逻辑回归(2)。逻辑回归和线性回归其实都属于广义线性模型的一种,而在决策制定等领域,逻辑回归的应用更加广泛。所以在第一期学习了线性回归之后很自然的就是学习逻辑回归了。
什么是逻辑回归?
逻辑回归是一种分类的算法,它用给定的输入变量(X)来预测二元的结果(Y)(1/0,是/不是,真/假)。我们一般用虚拟变量来表示二元/类别结果。你可以把逻辑回归看成一种特殊的线性回归,只是因为最后的结果是类别变量,所以我们需要用胜算比取对数来作为因变量(Dependent Variable)。简单来说,逻辑回归是利用logit 函数拟合数据来预测某一个事件发生的概率的。
逻辑回归的起源
逻辑回归其实是属于广义线性模型(Generalized Linear Model)的一部分。1972年 Nelder和Wedderburn发明了这种方法来处理那些用线性回归没法处理的问题。因为如果你用线性回归去处理逻辑回归的二元或类别输出变量时候,最后的结果就是你会得到极低的校正R平方。当然广义线性模型是一个统计上用的非常广的模型,它包含了不止线性回归,逻辑回归,还有泊松回归,ANOVA等等,感兴趣的可以继续进行这方面的阅读。
广义线性回归的基本公式是
g(E(y)) = α + βx1 + γx2
这里,g()是联系函数(link function),E(y) 是目标输出变量Y的期望值,而α + βx1 + γx2 是输入变量的线性组合(α,β,γ 都是需要用数据估计的参数)。联系函数的作用是将输出变量Y的期望值和输入变量X的线性组合可以连接起来,起到一个桥的作用。
主要备注:
I.广义线性模型(简称GLM)因为有联系函数的存在,所以不需要输出变量和输入变量一定有线性关系。但是它假设输出变量Y的期望值算出来的联系函数的值必须和输入变量有线性关系。
II. GLM并不使用回归分析中经常使用的最小二乘法来估计模型参数的值,而是使用最大似然法则来估计参数的值(Maximum Likelihood Estimation,简称MLE)。MLE是统计学中只要涉及到参数模型一定都要搞清楚的重要基础概念。大部分的参数模型都会假设随机变量的分布ÿ