认识机器学习

最新推荐文章于 2024-09-29 11:42:14 发布

marsjin

最新推荐文章于 2024-09-29 11:42:14 发布

阅读量512

点赞数 14

文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/marsjin/article/details/135862373

版权

本文介绍了机器学习的基本概念，包括人工智能的发展历程，机器学习（特别是机器学习子集如深度学习）、核心技术（如分类、聚类、异常检测和回归），以及工作流程（数据预处理、模型学习和评估）。此外，还涵盖了监督学习、无监督学习和强化学习的区别及其应用场景。

摘要由CSDN通过智能技术生成

什么是机器学习？

人工智能（Artificial intelligence）是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。它是一个笼统而宽泛的概念，人工智能的最终目标是使计算机能够模拟人的思维方式和行为。大概在上世纪50年代开始兴起，但是受限于数据和硬件设备等限制，当时发展缓慢。

机器学习（Machine learning）是人工智能的子集，是实现人工智能的一种途径，但并不是唯一的途径。它是一门专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能的学科。大概在上世纪80年代开始蓬勃发展，诞生了一大批数学统计相关的机器学习模型。

深度学习（Deep learning）是机器学习的子集，灵感来自人脑，由人工神经网络（ANN）组成，它模仿人脑中存在的相似结构。在深度学习中，学习是通过相互关联的「神经元」的一个深层的、多层的「网络」来进行的。「深度」一词通常指的是神经网络中隐藏层的数量。大概在2012年以后爆炸式增长，广泛应用在很多的场景中。

机器学习核心技术

分类：应用以分类数据进行模型训练，根据模型对新样本进行精准分类与预测。
聚类：从海量数据中识别数据的相似性与差异性，并按照最大共同点聚合为多个类别。
异常检测：对数据点的分布规律进行分析，识别与正常数据及差异较大的离群点。
回归：根据对已知属性值数据的训练，为模型寻找最佳拟合参数，基于模型预测新样本的输出值。

机器学习基本流程,机器学习工作流（WorkFlow）

数据预处理（Processing）：
输入（未处理的数据标签）→
处理过程（特征处理幅度缩放、特征选择、维度约减、采样）→
输出（测试集训练集）。
模型学习（Learning）：模型选择、交叉验证、结果评估、超参选择。
模型评估（Evaluation）：了解模型对于数据集测试的得分。
新样本预测（Prediction）：预测测试集。

机器学习基本名词

监督学习（Supervised Learning）：训练集有标记信息，学习方式有分类和回归。
无监督学习（Unsupervised Learning）：训练集没有标记信息，学习方式有聚类和降维。
强化学习（Reinforcement Learning）：有延迟和稀疏的反馈标签的学习方式。
示例/样本：上面一条数据集中的一条数据。
属性/特征：「色泽」「根蒂」等。
属性空间/样本空间/输入空间X：由全部属性组成的空间。
特征向量：空间中每个点对应的一个坐标向量。
标记：关于示例结果的信息，如（（色泽=青绿，根蒂=蜷缩，敲声=浊响），好瓜），其中「好瓜」称为标记。
分类：若要预测的是离散值，如「好瓜」，「坏瓜」，此类学习任务称为分类。
假设：学得模型对应了关于数据的某种潜在规律。
真相：潜在规律自身。
学习过程：是为了找出或逼近真相。
泛化能力：学得模型适用于新样本的能力。一般来说，训练样本越大，越有可能通过学习来获得具有强泛化能力的模型。

机器学习算法分类

监督学习：有数据有标签的学习方式
分类预测，统计分类
分类算法：KNN算法、逻辑回归算法、朴素贝叶斯算法、决策树模型、随机森林分类模型、GBDT模型、XGBoost模型、支持向量机模型等
二分类问题
多类分类
多标签分类
回归分析
回归算法：决策树模型、随机森林分类模型、GBDT模型、回归树模型、支持向量机模型等
《水门桥》票房值
某城市房价的具体值
无监督学习：有数据无标签的学习方式
聚类问题
聚类算法：聚类算法
相似用户挖掘/社区发现
新闻聚类
降维问题
降维算法：PCA降维算法
对高维数据用低维数据进行表达;数据映射
强化学习：有延迟和稀疏的反馈标签的学习方式
Q-leaning
时间差学习