01.机器学习的简介

WuJiaYFN

已于 2022-07-17 17:58:03 修改

阅读量685

点赞数

分类专栏：机器学习(吴恩达机器学习笔记——持续更新中) 文章标签：机器学习人工智能

于 2022-07-17 17:57:02 首次发布

本文为WJiaJiaBest博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明

本文链接：https://blog.csdn.net/qq_44749630/article/details/125834714

版权

28 篇文章 20 订阅

订阅专栏

定义：对于某类任务 T 和性能度量 P，如果一个计算机程序在 T上以P衡量的性能随着经验E 而自我完善，那么就称这个计算机程序在从经验 E学习
机器学习时计算机科学的子领域，也是人工智能的一个分支和实现方式
机器学习应用的典型领域主要有：网络安全、搜索引擎、产品推荐、字典驾驶、图形识别、语言识别、量化投资、自然语言处理等

人工智能包括计算智能、感知智能和认知智能等层次，目前人工智能还介于计算智能和感知智能之间
人工智能的典型系统包括以下几个·方面：
1. 博弈游戏（如深蓝、Alpha、Go、AlphaZero等）
2. 机器人相关控制理论（运动规划、空盒子机器人行走等）
3. 机器翻译
4. 语言识别
5. 计算机视觉系统
6. 自然语言处理（自动程序）

数据挖掘使用机器学习、统计学和数据库等方法在相对大量的数据集中发现模式和知识，它涉及数据预处理、模型与推断、可视化等。
数据挖掘包括以下几类常见的任务：
1. 异常检测：对不符合预期模式的样本、事件进行识别。异常也被称为离群值、偏差和例外。异常检测常用于入侵检测、银行欺诈、疾病检测、故障检测等
2. **关联分析：**关联规则学习实在数据库中发现变量之间的关系（强规则）。
3. **聚类：**是一种探索性分析，在未知数据结构的情况下，根据相似性把样本分为不同的簇或子集，不用簇的样本具有很大的差异性，从而发现数据的类别与结构
4. **分类：**分类是根据已知样本的某些特征，判断一个新样本属于哪种类别。通过特征选择和学习，建立判别函数以对样本进行分类。
5. **回归：**回归是一种统计分析方法，用于了解两个或多个变量之间的相关关系，回归的目标是找出误差最小的拟合函数作为模型，用特定的自变量来预测因变量的值

从本质上来看，数据挖掘的目标是通过处理各种数据促进人们的决策，机器学习的主要任务是使机器模仿人类的学习，从而获得知识；而人工智能借助机器学习和推理最终形成具体的智能行为
机器学习与其他领域之间的关系：

**监督学习的概念：**是从有标记的训练数据中学习的一个模型，然后根据这个模型对未知样本进行预测。其中，模型的输入是某一样本的特征，函数的输出是这一样本的对应的标签。
常见的监督学习算法包括：**回归分析 **和 统计分类
监督学习包括分类和 数字预测 两大类
- 分类包括逻辑回归、决策树、KNN、随机森林、支持向量机、朴素贝叶斯等
- 数字预测包括线性回归、KNN、Gradient Boosting 、ADaBoost 等

应用机器学习解决事件问题，首先要明确目标任务，这是机器学习算法选择的关键。明确要解决的问题和业务需求，才可能基于现有数据设计或选择算法
例如：
- 在监督式学习过程中对定性问题可用分类算法，对定量分析可采用 回归方法
- 在无监督式学习中，若有样本细分则可应用 聚类算法，若需找出各数据项之间的内在联系，可应用关联分析

若测试结果不理想,则分析原因并进行模型调优
可以对模型进行诊断以确定模型调优的方向和思路,过拟合和欠拟合判断是模型诊断中重要的一步,常见的方法有 交叉验证以及绘制学习曲线等
- 过拟合的基本调优思路: 增加数据量,降低模型复杂度
- 欠拟合的基本调优思路: 提高特征数量和质量,增加模型复杂度