机器学习笔记

最新推荐文章于 2024-04-04 10:51:20 发布

夏曦儿

最新推荐文章于 2024-04-04 10:51:20 发布

阅读量337

点赞数 1

分类专栏：机器学习文章标签：机器学习

原文链接：https://shunliz.gitbooks.io/machine-learning/content/math/math.html

版权

机器学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

参考网络资源

机器学习按学习方式分为：监督学习、非监督学习、半监督学习、强化学习

监督学习

监督式学习的常见应用场景有分类问题和回归问题。

常见算法有逻辑回归（Logistic Regression）和BP神经网络（Back Propagation Neural Network）

非监督学习

常见的应用场景包括关联规则的学习以及聚类等。

常见算法包括Apriori算法以及k-Means聚类算法、DBscan聚类算法等。

半监督学习

半监督学习：输入数据部分被标识，部分没有被标识。

这种学习模型可以用来进行预测，但是模型首先需要学习数据的内在结构以便合理的组织数据来进行预测。应用场景包括分类和回归。

常见算法包括图论推理算法（Graph Inference）或者拉普拉斯支持向量机（Laplacian SVM）等。

强化学习

输入数据作为对模型的反馈，不像监督模型那样，输入数据仅仅是作为一个检查模型对错的方式，在强化学习下，输入数据直接反馈到模型，模型必须对此立刻作出调整。

常见的应用场景包括动态系统、机器人等智能设备控制等。

常见算法包括Q-Learning以及时间差学习（Temporal difference learning）

常用算法分类

1、回归算法：试图采用对误差的衡量来探索变量之间的关系的一类算法。

回归算法是统计机器学习的利器。

常见的回归算法包括：最小二乘法（Ordinary Least Square），逻辑回归（Logistic Regression），逐步式回归（Stepwise Regression），多元自适应回归样条（Multivariate Adaptive Regression Splines）以及本地散点平滑估计（Locally Estimated Scatterplot Smoothing）

2、基于实例的算法：常常用来对决策问题建立模型，这样的模型常常先选取一批样本数据，然后根据某些近似性把新数据与样本数据进行比较。通过这种方式来寻找最佳的匹配。因此，基于实例的算法常常也被称为“赢家通吃”学习或者“基于记忆的学习”。

常见的算法包括 k-Nearest Neighbor(KNN), 学习矢量量化（Learning Vector Quantization， LVQ），以及自组织映射算法（Self-Organizing Map ， SOM）

3、正则化方法：通常是回归算法的延伸，根据算法的复杂度对算法进行调整。

正则化方法通常对简单模型予以奖励而对复杂算法予以惩罚，通过在loss函数后增加正则项实现。

常见的算法包括：Ridge Regression算法， Least Absolute Shrinkage and Selection Operator（LASSO算法），以及弹性网络（Elastic Net）。

4、决策树算法：根据数据的属性采用树状结构建立决策模型，决策树模型常常用来解决分类和回归问题。

常见的算法包括：分类及回归树（Classification And Regression Tree， CART）， ID3 (Iterative Dichotomiser 3)， C4.5， Chi-squared Automatic Interaction Detection(CHAID), Decision Stump, 随机森林（Random Forest），多元自适应回归样条（MARS）以及梯度推进机（Gradient Boosting Machine， GBM）

5、贝叶斯方法算法：是基于贝叶斯定理的一类算法，主要用来解决分类和回归问题。

常见算法包括：朴素贝叶斯算法，平均单依赖估计（Averaged One-Dependence Estimators， AODE），以及Bayesian Belief Network（BBN）。

6、基于核的算法：最著名的模型：支持向量机（SVM）。基于核的算法把输入数据映射到一个高阶的向量空间，在这些高阶向量空间里，有些分类或者回归问题能够更容易的解决。

常见的基于核的算法包括：支持向量机（Support Vector Machine， SVM），径向基函数（Radial Basis Function ，RBF)，以及线性判别分析（Linear Discriminate Analysis ，LDA)等。

7、聚类算法：聚类算法通常按照中心点或者分层的方式对输入数据进行归并。所以的聚类算法都试图找到数据的内在结构，以便按照最大的共同点将数据进行归类。常见的聚类算法包括 k-Means算法以及期望最大化算法（Expectation Maximization， EM）。

8、关联规则学习：通过寻找最能够解释数据变量之间关系的规则，来找出大量多元数据集中有用的关联规则。常见算法包括 Apriori算法和Eclat算法等。

9、神经网络算法：模拟生物神经网络，是一类模式匹配算法。通常用于解决分类和回归问题。

常见的神经网络算法包括：感知器神经网络（Perceptron Neural Network）, BP反向传播算法（Back Propagation）， Hopfield网络自组织映射（Self-Organizing Map, SOM）。学习矢量量化（Learning Vector Quantization， LVQ）

10、深度学习算法：是对神经网络的发展。很多深度学习的算法是半监督式学习算法，用来处理存在少量未标识数据的大数据集。常见的深度学习算法包括：受限波尔兹曼机（Restricted Boltzmann Machine， RBN）， Deep Belief Networks（DBN），深度卷积网络（Deep Convolutional Network）（CNN）, 堆栈式自动编码器（Stacked Auto-encoders）。

11、集成算法：用一些相对较弱的学习模型独立地就同样的样本进行训练，然后把结果整合起来进行整体预测。集成算法的主要难点在于究竟集成哪些独立的较弱的学习模型以及如何把学习结果整合起来。

常见的算法包括：Boosting， Bootstrapped Aggregation（Bagging）， AdaBoost，堆叠泛化（Stacked Generalization， Blending），梯度推进机（Gradient Boosting Machine, GBM），随机森林（Random Forest）。