机器学习主要概念

最新推荐文章于 2024-03-30 23:50:06 发布

骨骼惊奇不信邪

最新推荐文章于 2024-03-30 23:50:06 发布

阅读量205

点赞数

分类专栏：机器学习与数据分析文章标签：机器学习

本文链接：https://blog.csdn.net/qq_35353931/article/details/102574596

版权

机器学习与数据分析专栏收录该内容

19 篇文章 0 订阅

订阅专栏

本文介绍了机器学习的主要任务，包括监督学习（分类、回归、相似性学习）、半监督学习、无监督学习（聚类分析）以及强化学习。此外，还讨论了人工神经网络、决策树、支持向量机等关键算法，强调了特征学习、异常检测和联合学习的重要性。机器学习模型的训练需要大量数据，防止过拟合，并关注用户隐私，如联合学习的应用。

摘要由CSDN通过智能技术生成

内容摘自 https://en.wikipedia.org/wiki/Machine_learning

机器学习Machine Learning

机器学习任务分类：

监督学习 supervised learning
从一组包含输入input和期望的输出desire output 的数据集data set中建立数学模型mathematical model，训练集training data中包括有或无a certain object（input）,输出 a label (the output)来表明是否包含该object。
（1）分类算法Classification algorithms
当输出被限定为一组有限的值limited set of values时使用。如过滤电子邮件。
（2）回归算法regression algorithms
连续输出，可以在一个范围内具有任何值。连续值的示例是物体的温度。
（3）相似性学习Similarity learning
目标是从样本examples中学习使用度量两个对象的相似性或相关程度的相似性函数similarity function。应用于排名ranking, 推荐系统recommendation systems, 视觉识别跟踪visual identity tracking, 人脸验证face verification, and speaker verification.
半监督学习Semi-supervised learning
不完整的数据集incomplete data ，部分样本输入sample input 没有标签label.
无监督学习 unsupervised learning
从一组仅包含输入而没有所需输出标签的数据中构建数学模型。应用是在领域密度估计在统计。用于寻找数据的结构，例如对数据点进行分组和聚类grouping or clustering。可以通过特征学习 feature learning来将输入进行分类group the inputs into categories。降维 Dimensionality reduction用于减少特征量或输入。
（1）聚类分析Cluster analysis是将一组观察值observations分配给子集（称为聚类clusters），以便根据一个或多个预先指定的标准，同一聚类中的观察值相似，而从不同聚类中得出的观察值则不同。不同的聚类技术对数据的结构做出不同的假设，通常由某种相似性度量标准similarity metric 定义并进行评估，例如，通过内部紧缩度或同一聚类成员之间的相似性以及分离（聚类之间的差异）进行评估。其他方法基于估计的密度和图形连通性。
强化学习Reinforcement learning
自我学习Self learning
特征学习feature learning
机器学习任务（例如分类）通常需要输入，该输入在数学和计算上都便于处理。但是，现实世界的数据（例如图像，视频和感官数据）尚未屈服于尝试通过算法定义特定功能。一种替代方法是通过检查来发现此类特征或表示，而不依赖显式算法。作为进行分类预测之前的预处理步骤pre-processing step,特征学习可以是有监督的也可以是无监督的。在监督特征学习中，使用标记的输入labeled input data学习特征。例如人工神经网络artificial neural networks, 多层感知器multilayer perceptrons, 监督字典学习supervised dictionary learning. 在无监督特征学习中, 使用未标记的输入unlabeled input data学习。例如字典学习dictionary learning, 独立成分分析independent component analysis, 自编码器autoencoders, 矩阵分解matrix factorization和各式各样的聚类。

*流形学习算法试图在学习的表示是低维的约束下这样做。稀疏编码算法试图在学习的表示稀疏的约束下这样做，这意味着数学模型具有许多零。多线性子空间学习算法旨在直接从多维数据的张量表示中学习低维表示，而无需将其重塑为高维向量。深度学习算法发现具有更高级别，更抽象的特征（根据（或生成）更低级别的特征）定义的表示形式的多个层次或功能的层次结构。

稀疏字典学习Sparse dictionary learning
是一种特征学习方法。其中，训练示例表示为基函数的线性组合，并且假定为稀疏矩阵。该方法具有很强的NP难度，很难解决。稀疏词典学习的一种流行的启发式方法是K-SVD算法。稀疏词典学习已在几种情况下应用。在分类中，问题在于确定先前未见过的训练示例所属的类。对于已经建立了每个类别的字典，该类别将关联一个新的训练示例，该示例最好由相应的字典稀疏表示。稀疏字典学习也已应用于图像去噪。关键思想是可以通过图像字典来稀疏地表示干净的图像补丁，而噪点则不能。
异常检测Anomaly detection
在数据挖掘中，异常检测（也称为离群值检测）是对罕见项目，事件或观察结果rare items, events or observations的识别，这些怀疑，事件或观察结果与大多数数据有显着差异，从而引起怀疑。异常被称为离群值，新颖性，噪音，偏差和例外。存在三大类的异常检测技术。（1）无监督异常检测技术：通过查找看起来最不适合数据集其余部分的实例，在假定数据集中的大多数实例是正常的情况下，检测未标记测试数据集中的异常。（2）有监督的异常检测技术需要一个已标记为“正常”和“异常”的数据集，并需要训练分类器（许多其他统计分类问题的主要区别是异常检测的内在不平衡性）。（3）半监督异常检测技术可根据给定的正常训练数据集构建表示正常行为的模型，然后测试该模型生成测试实例的可能性。
人工神经网络（ANN）Artificial neural networks
人工神经网络是一种基于称为“ 人工神经元 ” 的连接单元或节点的集合的模型，可以对生物脑中的神经元进行松散建模。每个连接都像生物大脑中的突触一样，可以将信息（一种“信号”）从一个人工神经元传输到另一个神经元。接收信号的人工神经元可以对其进行处理，然后向与其连接的其他人工神经元发出信号。在常见的ANN实现中，人工神经元之间的连接处的信号为实数，每个人工神经元的输出是通过其输入总和的某些非线性函数来计算的。人工神经元之间的连接称为“边缘”。人工神经元和边缘的权重通常会随着学习的进行而调整。权重增加或减小连接处信号的强度。人工神经元可以具有阈值，使得仅在总信号超过该阈值时才发送信号。通常，人工神经元聚集成层。不同的层可以在其输入上执行不同种类的转换。信号可能从第一层（输入层）传播到最后一层（输出层），可能是在多次遍历这些层之后。
人工神经网络方法的最初目标是以与人脑相同的方式解决问题。但是，随着时间的流逝，人们开始将注意力转移到执行特定任务上，从而导致与生物学的背离。人工神经网络已用于多种任务，包括计算机视觉，语音识别，机器翻译，社交网络过滤，棋盘游戏和视频游戏以及医疗诊断。
深度学习由人工神经网络中的多个隐藏层组成。这种方法试图模拟人脑将光和声转化为视觉和听觉的方式。深度学习的一些成功应用是计算机视觉和语音识别。
决策树Decision trees
决策树学习使用决策树作为预测模型，从对项目（在分支中表示）的观察到对项目目标值（在叶子中表示）的结论。它是统计，数据挖掘和机器学习中使用的预测建模方法之一。目标变量可以采用一组离散值的树模型称为分类树classification trees；在这些树形结构，树叶代表类标签class labels和分支表示连接词 conjunctions的功能。目标变量可以采用连续值（通常为实数）的决策树）称为回归树regression trees。在决策分析中，决策树可用于直观地显示决策decision和决策 decision making。在数据挖掘中，决策树描述了数据，但是生成的分类树可以作为决策的输入input for decision making。
支持向量机Support vector machines
支持向量机（SVM），也称为支持向量网络，是用于分类和回归的一组相关的有监督学习方法。给定一组训练示例，每个训练示例都标记为属于两个类别中的一个，SVM训练算法将构建一个模型，该模型预测新示例是否属于一个类别或另一个类别。SVM训练算法是一种非概率non-probabilistic，二进制binary，线性分类器linear classifier，尽管存在诸如Platt缩放的方法以在概率分类设置中使用SVM。除了执行线性分类外，SVM还可以使用所谓的SVM有效地执行非线性分类。内核技巧kernel trick，将其输入隐式映射implicitly mapping到高维特征空间 high-dimensional feature spaces。
贝叶斯网络Bayesian networks
贝叶斯网络，信念网络belief network或有向无环图模型directed acyclic graphical model是一种概率图形模型 probabilistic graphical model ，它代表有向无环图（DAG）的一组随机变量及其条件独立性。例如，贝叶斯网络可以表示疾病和症状之间的概率关系。给定症状，该网络可用于计算各种疾病存在的概率。存在执行推理和学习的高效算法。建模变量序列（如语音信号或蛋白质序列）的贝叶斯网络称为动态贝叶斯网络dynamic Bayesian networks。可以表示和解决不确定性下的决策问题的贝叶斯网络的一般化称为影响图influence diagrams.
遗传算法Genetic algorithms
遗传算法（GA）是一种搜索算法 search algorithm和启发式 heuristic 技术，它模仿自然选择 natural selection的过程，使用诸如变异和交叉等方法来生成新的基因型 genotypes，以期找到针对给定问题的良好解决方案。
训练模型Training models
通常，机器学习模型需要大量数据才能使其正常运行。通常，在训练机器学习模型时，需要从训练集中收集大量的代表性数据样本representative sample of data。来自训练集的数据可以像文本语料库corpus of text，图像集合collection of images以及从服务的单个用户收集的数据一样变化。训练机器学习模型时，需要注意过拟合Overfitting。
联合学习Federated learning
联合学习是一种用于训练机器学习模型的新方法，该方法分散了训练过程的分散性，无需将数据发送到集中式服务器centralized server就可以维护用户的隐私。通过将培训过程分散到许多设备上，这也提高了效率。例如，Gboard使用联合机器学习来训练用户手机上的搜索查询预测模型，而不必将单个搜索发送回Google。

骨骼惊奇不信邪

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习主要概念

内容摘自https://en.wikipedia.org/wiki/Machine_learning机器学习Machine Learning机器学习任务分类：监督学习supervised learning 从一组包含输入input和期望的输出desire output 的数据集data set中建立数学模型mathematical model，训练集training data...
复制链接

扫一扫