机器学习综述

sunxunyong

于 2024-07-08 09:26:23 发布

阅读量424

点赞数 9

文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/sunxunyong/article/details/140259169

版权

AI学派：
符号主义(symbolicism)：原理为物理符号系统假设和有限合理性原理。
行为主义(actionism)：原理为控制论及感知-动作型控制系统。
连接主义(connectionism)：原理为神经网络及神经网络间的连接机制与学习算法。–深度学习（神经网络大于2层）–GPU算力支撑

机器学习分类1：
有监督学习：用已知某种或某些特性的样本作为训练集，以建立一个数学模型，再用已建立的模型来预测未知样本，此种方法被称为有监督学习，是最常用的一种机器学习方法。是从标签化训练数据集中推断出模型的机器学习任务。
无监督学习：与监督学习相比，无监督学习的训练集中没有人为的标注的结果，在非监督的学习过程中，数据并不被特别标识，学习模型是为了推断出数据的一些内在结构。
半监督学习：考虑如何利用少量的标注样本和大量的未标注样本进行训练和分类的问题，是有监督学习和无监督学习的结合

有监督学习：
判别式模型(Discriminative Model):直接对条件概率p(y|x)进行建模，常见判别模型有:线性回归、决策树、支持向量机SVM、k近邻、神经网络等;
生成式模型(Generative Model):对联合分布概率p(x,y)进行建模，常见生成式模型有: 隐马尔可夫模型HMM、朴素贝叶斯模型、高斯混合模型GMM、LDA等;
无监督学习：
无监督学习试图学习或者提取数据背后的数据特征，或者从数据中抽取出重要的特征信息，常见的算法有聚类、降维、文本处理(特征抽取)等。
半监督学习(SSL)：
主要考虑如何利用少量的标注样本和大量的未标注样本进行训练和分类的问题。半监督学习对于减少标注代价，提高学习机器性能具有非常重大的实际意义。
SSL的成立依赖于模型假设，主要分为三大类:平滑假设、聚类假设、流行假设; 其中流行假设更具有普片性。
SSL类型的算法主要分为四大类:半监督分类、半监督回归、半监督聚类、半监督降维。

机器学习分类2：
分类：通过分类模型，将样本数据集中的样本映射到某个给定的类别中
聚类：通过聚类模型，将样本数据集中的样本分为几个类别，属于同一类别的样本相似性比较大
回归：反映了样本数据集中样本的属性值的特性，通过函数表达样本映射的关系来发现属性值之间的依赖关系
关联规则：获取隐藏在数据项之间的关联或相互关系，即可以根据一个数据项的出现推导出其他数据项的出现频率。

机器学习算法：
C4.5：分类决策树算法，决策树的核心算法，ID3算法的改进算法。
CART：分类与回归树(Classification and Regression Trees)
kNN：K近邻分类算法;如果一个样本在特征空间中的k个最相似的样本中大多数属于某一个类别，那么该样本也属于该类别
NaiveBayes：贝叶斯分类模型;该模型比较适合属性相关性比较小的时候，如果属性相关性比较大的时候，决策树模型比贝叶斯分类模型效果好(原因:贝叶斯模型假设属性之间是互不影响的)
SVM：支持向量机，一种有监督学习的统计学习方法，广泛应用于统计分类和回归分析中。
EM：最大期望算法，常用于机器学习和计算机视觉中的数据集聚领域
Apriori：关联规则挖掘算法
K-Means：聚类算法，功能是将n个对象根据属性特征分为k个分割(k<n); 属于无监督学习
PageRank：Google搜索重要算法之一
AdaBoost：迭代算法;利用多个分类器进行数据分类

模型评估：
分类算法：
指标描述 scikit-learn函数
Precision 精确度 from sklearn.metrics import precision_score
Recall 召回率 from sklearn.metrics import recall_score
F1 F1指标 from sklearn.metrics import f1_score
Confusion Matrix 混淆矩阵 from sklearn.metrics import confusion_matrix
ROC ROC曲线 from sklearn.metrics import roc
AUC ROC曲线下的面积 from sklearn.metrics import auc
回归算法：
指标描述 scikit-learn函数
Mean Square Error (MSE, RMSE) 平均方差 from sklearn.metrics import mean_squared_error
Absolute Error 绝对误差 from sklearn.metrics import mean_absolute_error, (MAE, RAE) median_absolute_error
R-Squared R平方值 from sklearn.metrics import r2_score

sunxunyong

关注

9
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
机器学习综述

有监督学习：用已知某种或某些特性的样本作为训练集，以建立一个数学模型，再用已建立的模型来预测未知样本，此种方法被称为有监督学习，是最常用的一种机器学习方法。无监督学习：与监督学习相比，无监督学习的训练集中没有人为的标注的结果，在非监督的学习过程中，数据并不被特别标识，学习模型是为了推断出数据的一些内在结构。主要考虑如何利用少量的标注样本和大量的未标注样本进行训练和分类的问题。无监督学习试图学习或者提取数据背后的数据特征，或者从数据中抽取出重要的特征信息，常见的算法有聚类、降维、文本处理(特征抽取)等。
复制链接

扫一扫