本笔记旨在记录自己学习机器学习的过程,大家有问题欢迎在评论区讨论,有错误的地方欢迎大家指出交流。
一、机器学习简介
机器学习又叫统计学习,机器学习方法三要素:模型、策略、算法
机器学习的本质是创建一个由x到y的映射,这个映射通常由函数表示,所以机器学习最终的目的就是通过各种算法算出函数中的参数。这个映射又叫做模型。
算法是用来选取最优的模型的
二、机器学习的步骤
1、得到一个有限的训练数据的集合
2、确定包含所有可能的模型的假设空间,即学习模型的集合
3、确定模型选择的准则,即学习的策略
4、实现求解最优模型的算法,即学习的算法
5、通过学习方法选择最优模型
6、利用学习的最优模型对新数据进行预测和分析。
三、机器学习的分类
(一)基本分类
1、监督学习
监督学习旨在研究出x到y之间的映射,输入的数据集是成对的 可实现回归、分类、标注
2、无监督学习
无监督学习的本质是学习数据中的统计规律或潜在结构,输入的数据是无标注数据。可实现聚类、降维或概率估计。
3、强化学习
强化学习是指只能系统在与环境的连续互动中学习最优行为策略的机器学习问题
强化学习到的目标就是在所有可能的策略中选出价值函数最大的策略
4、半监督学习
半监督学习的输入数据是一半数据有标注、一半数据没有标注。
5.主动学习
主动学习是指机器不断主动给出实例让人给出标注,然后利用标注数据学习预测模型的机器学习问题。
(二)按模型分类
1.概率模型和非概率模型
(1)概率模型和非概率模型的区别在于模型的内在结构,概率模型通常可以表示为联合概率分布的形式,其中的变量表示输入、输出、隐变量甚至参数。而非概率模型则不一定存在这样的联合概率分布。
(2)概率模型有:决策树、朴素贝叶斯、隐马尔可夫模型、条件随机场、概率潜在语义分析、潜在狄利克雷分配、高斯混合模型等。
非概率模型有:感知机、支持向量机、k近邻、AdaBoost、k均值、潜在语义分析、神经网络
logistic回归即可以看作概率模型,也可以看做非概率模型
(3)概率模型的代表是概率图模型
贝叶斯网络,马尔可夫随机场,条件随机场是概率图模型,无论模型如何复杂,均可以用最基本的加法和乘法法则
2.线性模型和非线性模型
线性模型:感知机、线性SVM、k近邻、k均值、潜在语义分析
非线性模型:核函数SVM、AdaBoost、神经网络
深度学习是复杂的非线性模型的学习
3.参数化模型和非参数化模型
参数化模型:感知机、朴素贝叶斯、logistic回归、k均值、高斯混合模型、潜在语义分析、潜在狄利克雷分配
非参数化模型:决策树、SVM、AdaBoost、k近邻
(三)按算法分类
在线学习和批量学习
在线学习:利用梯度下降的感知机学习算法
(四)按技巧分类
1、贝叶斯学习
插播:贝叶斯估计和极大似然估计的区别
贝叶斯估计和极大似然估计是统计学中的两个学派
抽象一点来讲,频率学派和贝叶斯学派对世界的认知有本质不同:频率学派认为世界是确定的,有一个本体,这个本体的真值是不变的,我们的目标就是要找到这个真值或真值所在的范围;而贝叶斯学派认为世界是不确定的,人们对世界先有一个预判,而后通过观测数据对这个预判做调整,我们的目标是要找到最优的描述这个世界的概率分布。
举个例子:假设我现在要算中国14亿人口的平均身高,频率学派认为这个数值是一个确定的值,而贝叶斯学派认为这个参数是一个随机变量,也就是说用两种方法用样本估计总体,极大似然估计求出的数值是一个固定的值,而贝叶斯估计算出的是一个随机变量
频率学派最常用的方法是最大似然估计方法MLE,贝叶斯学派最常用的方法是最大后验概率估计MAP
因为贝叶斯估计的计算量很大,在选择的时候可以有所取舍。
贝叶斯学习又称贝叶斯推理,主要思想是,在概率模型的学习和推理中,利用贝叶斯定理,计算给定数据条件下模型的条件概率,即后验概率,并应用这个原理进行模型估计,以及对数据的预测。
贝叶斯学习:朴素贝叶斯、潜在狄利克雷分配
模型估计时,估计整个后验概率分布p(|D)。如果需要给出一个模型。通常选择后验概率最大的模型
2、核方法
核方法是使用核函数表示和学习非线性模型的一种机器学习方法,可以用于监督学习和物监督学习。
核方法:SVM、核PCA、核K均值