【机器学习系列】机器学习简介

请叫我阿炜

于 2022-09-07 21:43:44 发布

阅读量292

点赞数

分类专栏：机器学习系列文章标签：机器学习人工智能数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_42875020/article/details/126753437

版权

机器学习系列专栏收录该内容

1 篇文章 0 订阅

订阅专栏

一、机器学习概念

定义：对于某类任务 T 和性能度量 P，如果一个计算机程序在 T上以P衡量的性能随着经验E 而自我完善，那么就称这个计算机程序在从经验 E学习
机器学习时计算机科学的子领域，也是人工智能的一个分支和实现方式
机器学习应用的典型领域主要有：网络安全、搜索引擎、产品推荐、字典驾驶、图形识别、语言识别、量化投资、自然语言处理等

二、机器学习、人工智能与数据挖掘的关系

2.1 人工智能的概念

人工智能包括计算智能、感知智能和认知智能等层次，目前人工智能还介于计算智能和感知智能之间
人工智能的典型系统包括以下几个方面：
1、博弈游戏（如深蓝、Alpha、Go、AlphaZero等）
2、机器人相关控制理论（运动规划、空盒子机器人行走等）
3、机器翻译
4、语言识别
5、计算机视觉系统
6、自然语言处理（自动程序）

2.2 数据挖掘的概念

数据挖掘使用机器学习、统计学和数据库等方法在相对大量的数据集中发现模式和知识，它涉及数据预处理、模型与推断、可视化等。

2.3 机器学习、人工智能与数据挖掘的关系

从本质上来看，数据挖掘的目标是通过处理各种数据促进人们的决策，机器学习的主要任务是使机器模仿人类的学习，从而获得知识；而人工智能借助机器学习和推理最终形成具体的智能行为
机器学习与其他领域之间的关系：

三、机器学习算法

机器学习主要分为：

监督学习
无监督学习
强化学习

3.1 监督学习

监督学习的概念： 是从有标记的训练数据中学习的一个模型，然后根据这个模型对未知样本进行预测。其中，模型的输入是某一样本的特征，函数的输出是这一样本的对应的标签。
监督学习包括分类和 数字预测 两大类
分类包括逻辑回归、决策树、KNN、随机森林、支持向量机、朴素贝叶斯等
数字预测包括线性回归、KNN、Gradient Boosting 、ADaBoost 等

3.2 无监督学习

无监督学习的概念：又称为非监督式学习，它的输入样本并不需要标记，而是自动从样本中学习特征实现预测。
常见的无监督学习算法有：聚类和关联分析等，在人工神经网络中，自组织映射（SOM）和适应性共振理论（ART)是最常见的无监督学习

3.3 强化学习

强化学习的概念：是通过观察来学习做成什么样的动作。每个动作都会对环境有所影响，学习对象根据观察到的周围环境的反馈来做出判断。
强化学习强调如何基于环境而行动，以取得最大化的预期利益

四、机器学习的一般流程

机器学习开发流程：

获取数据
数据处理
特征工程
机器学习算法模型
模型评估
应用

4.1 定义分析目标

应用机器学习解决事件问题，首先要明确目标任务，这是机器学习算法选择的关键。明确要解决的问题和业务需求，才可能基于现有数据设计或选择算法
例如
在监督式学习过程中对定性问题可用分类算法，对定量分析可采用回归方法
在无监督式学习中，若有样本细分则可应用聚类算法，若需找出各数据项之间的内在联系，可应用关联分析

4.2 收集数据

数据要有代表性并尽可能覆盖领域，否则容易出现过拟合或欠拟合

4.3 整理预处理

获得数据之后，不应该基于创建模型，可先对数据进行一些探索，了解数据的大致结构、数据的统计信息、数据噪声以及数据分布等
在此过程中，为了更好的查看数据情况，可使用数据可视化方法或数据质量评价对数据质量进行评估
机器学习常见的预处理方法：归一化、离散化、缺失值处理、去除共线性等

4.4 数据建模

应用特征选择方法，可以从数据中提取出合适的特征，并将其应用于模型中得到较好的结果
特征选择时可应用有效性分析技术，如相关系数、卡方检验、平均互信息、条件熵、后验概率和逻辑回归权重等方法
训练模型前，一般会把数据集分为训练集和测试集，或对训练集在细分为训练集和验证集,从而对模型的泛化能力进行评估
一般会用几种不同的方法来进行模型训练,然后比较他们的性能,从中选择最优的一个.不同的模型使用不同的性能衡量指标

4.5 模型训练

在模型训练过程中, 需要对模型参数进行优化,如果对算法原理理解不够透彻,往往无法快速定位能决定模型优劣的模型参数

4.6 模型评估

若测试结果不理想,则分析原因并进行模型调优
可以对模型进行诊断以确定模型调优的方向和思路,过拟合和欠拟合判断是模型诊断中重要的一步,常见的方法有交叉验证以及绘制学习曲线等
过拟合的基本调优思路: 增加数据量,降低模型复杂度
欠拟合的基本调优思路: 提高特征数量和质量,增加模型复杂度

4.7 模型应用

模型应用主要与工程实现的相关性比较大。
工程上是结果导向，模型在线上运行的效果直接决定模型的好坏，不单纯包括其准确程度、误差等情况，还包括其运行的速度（时间复杂度）、资源消耗程度（空间复杂度）、稳定性是否可接受等方面。

请叫我阿炜

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【机器学习系列】机器学习简介

【机器学习系列】机器学习简介
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。