八个经典算法
单变量线性回归
多变量线性回归
逻辑斯特回归
神经网络算法
支持向量机
聚类算法之KMeans聚类
降维算法之PCA降维
决策树(回归树、分类树)
机器学习
现在的机器学习算法大都分为监督学习和无监督学习,工业界也在用一些半监督学习,就是两者的混合。
监督学习是使用带有标签结果的数据喂给机器去学习,多用于连续之预测和离散值分类。
无监督学习是使用没有标签的数据喂给机器去学习,多用于聚类和降维。
聚类是机器通过学习,将特征值相近的样本,自动划分为一类,具体划分效果,事先并不可知。
降维是机器通过学习,将样本的特征进行压缩,使多维度的数据降低到低维度,但是特征价值并不会损失太多。
算法实现思路
线性回归
线性回归的实现思路是我们要去使机器学习一类样本的分布规律,从而可以对新来的样本进行结果的预测。
假设一类样本本身具有一定的分布规律g,我们让机器通过大量的历史样本数据,去寻找近似于g的一个规律h。线性回归算法实现的优劣,就在于h和g的接近程度。h和g的差异,叫做代价函数或损失函数,我们对机器不断的训练,其实就是在不断的降低代价值或损失值。我们用的基本方法是对损失函数进行求导,找到是损失函数下降最快的方向,然后对模型的参数进行更新,进而是损失函数下降。这个方法叫做梯度下降法。直到损失值的范围达到我们的期望,或者梯度下降达到我们设定的最大次数,又或者更新的参数变化值小于我们预定的范围,模型训练完毕。
逻辑回归
逻辑回归用于离散值的分类。机器学习的架构都绕不开这几个模块:定义激活函数,定义模型,定义代价函数,定义更新函数。
逻辑回归,在线性回归模型的基础上,加入了一个激活函数-sigmoid函数,这个数学函数可以很神奇的将任何数值给变换到0,1之间,自然而然的,线性回归的连续值,在逻辑回归中就成了0-1之间的概率值,根据这一特性,逻辑回顾就定义,经过激活函数得到的值,大于0.5的,归类于正向类,标记为1,小于0.5的,归类于负向类,标记为0。所以,逻辑回归实现了离散值分类。
对于多分类问题,在逻辑函数中的解决思路就是,有几个类别,构造几