目录
机器学习概述
01 监督学习
02 无监督学习:
03 半监督学习
04 强化学习
机器学习算法介绍
1 回归算法
01线性回归:
02非线性回归
03逻辑回归
2 聚类
01基于层次的聚类
02基于分割(划分)的聚类
03基于密度的聚类
04基于网格的聚类
05基于模型的聚类
3分类:
01 逻辑回归
02 朴素贝叶斯分类器
03 SVM算法:
04 KNN
05 决策树:
06 随机森林
4降维
有监督降维
无监督降维
5 时间序列:
常用算法:AR、MA、ARMA、ARIMA、SARIMA
Prophet模型
LSTM
6深度学习:
01神经网络:
02反向传播:
03前向神经网络(Feedforward Neural Networks, FNN):
04卷积神经网络(Convolutional Neural Networks, CNN)
05循环神经网络(Recurrent Neural Networks ,RNN)
06递归神经网络(Recursive Neural Network )
总结
机器学习是指机器通过统计学算法,对大量历史数据进行学习,进而利用生成的经验模型指导业务。它是一门多领域交叉学科,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
监督学习是根据已有数据集,知道输入和输出结果之间的关系,然后根据这种已知关系训练得到一个最优模型。也就是说,在监督学习中,我们的训练数据应该既有特征又有标签,然后通过训练,使得机器能自己找到特征和标签之间的联系,然后在面对没有标签的数据时可以判断出标签。
主要分为:分类任务、回归任务、序列标注任务。
监督学习实例:iris数据集是用来给花做分类的数据集,每个样本包含了花萼长度、花萼宽度、花瓣长度、花瓣宽度四个特征(前4列),我们需要建立一个分类器,分类器可以通过样本的四个特征来判断样本属于山鸢尾、变色鸢尾还是维吉尼亚鸢尾(这三个名词都是花的品种)。
无监督学习和监督学习最大的不同是监督学习中数据是带有一系列标签。在无监督学习中,我们需要用某种算法去训练无标签的训练集从而能让我们我们找到这组数据的潜在结构。无监督学习大致可以分为聚类和降维两大类。
主要分为:聚类任务、降维任务
有监督学习方法必须要有训练集与测试样本。在训练集中找规律,而对测试样本使用这种规律。而非监督学习没有训练集,只有一组数据,在该组数据集内寻找规律,比如右图实例,可用过聚类算法自动给数据集分类。
半监督学习是监督学习和无监督学习相互结合的一种学习方法,通过半监督学习的方法可以实现分类、回归、聚类的结合使用。
半监督分类:是在无类标签的样例的帮助下训练有类标签的样本,获得比只用有类标签的样本训练得到更优的分类;半监督回归:在无输出的输入的帮助下训练有输出的输入,获得比只用有输出的输入训练得到的回归器性能更好的回归;半监督聚类:在有类标签的样本的信息帮助下获得比只用无类标签的样例得到的结果更好的簇,提高聚类方法的精度;半监督降维:在有类标签的样本的信息帮助下找到高维输入数据的低维结构,同时保持原始高维数据和成对约束的结构不变。半监督学习是最近比较流行的方法。
强化学习是一种比较复杂的机器学习方法,强调系统与外界不断的交互反馈,它主要是针对流程中不断需要推理的场景,比如无人汽车驾驶,它更多关注性能。它是机器学习中的热点学习方法。
常用的机器学习算法:
回归分析是一种统计分析方法,用于预测一个连续变量与一个或多个其他变量之间的关系。回归分析通过建立模型来预测因变量(被预测变量)与自变量(预测变量)之间的关系,从而预测因变量的值。回归分析有多种形式,包括线性回归、非线性回归、Logistic回归等。
线性回归:是回归分析的一种,假设因变量与自变量之间存在线性关系,即因变量与自变量的关系可以用一条直线来描述。它最常见的应用场景是预测数值型变量,如预测房价根据面积、房龄等因素。
其中所有的x都是一次项,所有的x与y都是线性关系。
线性回归主要涉及两个难点:
[if !supportLists]1、[endif]参数的选择:
最简单的方法,我把所有可能的参数值都罗列好,让程序全部执行尝试计算,最终就能选择出最优解,但是这种方式不但耗时还占内存,所以我们就需要其他方法来进行优化,即参数迭代。
参数迭代一般选取梯度下降法:梯度下降法就好比是下山,下一步的方向选的是最陡的方向。梯度下降不一定能够找到全局的最优解,有可能是一个局部最优解。梯度下降法的计算过程就是沿梯度下降的方向求解极小值。
其迭代公式为
其中
代表梯度负方向,
表示梯度方向上的搜索步长。梯度方向我们可以通过对函数求导得到,步长的确定比较麻烦,太大了的话可能会发散,太小收敛速度又太慢。一般确定步长的方法是由线性搜索算法来确定,即把下一个点的坐标看做是ak+1的函数,然后求满足f(ak+1)的最小值的ak+1即可。
参数迭代算法还包括牛顿迭代法、最速下降法、共轭迭代法、线性规划、非线性规划、遗传算法、模拟退火等等。
[if !supportLists]2、[endif]验证参数选择的正确性:
计算参数是否最优一般通过代价函数:代价函数也称为损失函数,为每个真实值与预测值之前的残差平方之和,即最小二乘法。
线性回归实例:
预测波士顿房价:
房子价格= 0.02×中心区域的距离 + 0.04×城市一氧化氮浓度 + (-0.12×自住房平均房价) + 0.254×城镇犯罪率
案例来源: