机器学习全流程
引言:
概念:人工智能(AI) 机器学习(ML) 深度学习(DL) 机器视觉(CV) 自然语言处理(NLP)
- 机器学习是一门多领域交叉学科,设计概率论、统计学。。
- 专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,并重新组织已有的知识结构使之不断改善自身的性能。
- 是人工智能的核心
- 诞生于20世纪60年代,在最近的十几年发展非常迅速。
发展历程:
- 20世纪50年代之前:发现并改进的统计方法
- 20世纪50年代:使用简单算法进行开创性机器学习研究
- 20世纪60年代:用于机器学习中概率推理的贝叶斯方法的引入
- 20世纪80年代:反向传播使得机器学习研究进入新时代
- 20世纪90年代:机器学习从知识驱动转变为数据驱动方法;SVM、RNN等逐步流行起来
- 21世纪开始:支持向量聚类及无监督学习方法逐步流行起来
- 21世纪初至今:机器学习研究热度主要集中在深度学习;2012年之后,随着算力和海量样本的支持,深度学习急速发展。
常见应用
股票预测、风险分析;搜索排序;外卖搜索推荐饭店;购物网站推荐等等。
机器学习的分类
- 监督学习
- 无监督学习
- 强化学习
- 遗传算法
选择合适任务的学习算法(监督学习和非监督学习)
开发流程
- step1: 发现问题确定场景
- step2: 获得已有样本数据
- step3: 对已有数据进行分析和预处理
- step4: 根据需要实现的智能化目标,选择方法或者模型
- step5: 不断调整方法和模型参数
- step6: 多种数据集测试优化和轻量化等
机器学习核心算法
监督学习
回归
挑西瓜问题 - 基于该问题,了解机器学习中一些初步的概念(数据样本、属性、特征、标签、变量、向量、数组、矩阵)
回归分析:确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。
为什么使用回归分析
- 从应用功能上看:
- 从算法功能上看:回归方程
回归分析的前提: 对具有因果关系的。。。
回归分析分类
- 按照个数:一元回归、多元回归
- 按照关系类型:线性回归、非线性回归
一元线性回归:最小二乘法
多元线性回归:
逻辑回归:本质是分类算法
分类
分类:将一些新的数据项映射到给定类别中的某个类别中。
步骤:
- 将样本转化为等维的数据特征(特征转化)
- 选择与类别相关的特征(特征选择/提取)
- 建立分类模型或分类器进行分类(分类)
决策树结构:
- 节点:特征属性
- 分支:
- 根节点:信息量最大的属性
- 中间节点:
- 叶节点
随机森林: 多棵树的组合
XGBOOST: 将每棵树的结果累加进行预测
支持向量机: 二值分类算法,计算机随机产生一个分类线/分类面并移动他,直到训练
非监督学习
聚类
聚类:根据数据的“相似性”将数据归纳为多类的过程。
相似性衡量方法:
- 欧式举例
- 曼哈顿距离
- 余弦相似度
典型聚类算法:
- k-means算法
评估指标
回归模型评估
- 模型的拟合度(欠拟合/过拟合)
- 偏差平方和
- 局部最优值和全局最优
分类模型评估
- 准确率、精确率、召回率、F1值
- ROC曲线和AUC
- 混淆矩阵
深度学习
深度学习概述
实现机器学习的一种技术——高度依赖计算设备
机器学习和深度学习的主要区别:
- 模型复杂性和结构
- 数据需求和特征工程
- 计算资源
代表人物:
应用:无人驾驶/人脸识别/文字识别/语音识别
神经网络基础
神经元:一种仿生模型算法
核心概念和算法
- 标准神经网络(NN):
- 卷积神经网络(CNN): 主要处理图像的一些任务
- 递归神经网络(RNN): 主要处理自然语言方面的一些任务
- LSTM循环神经网络:
- TransFormer模型:
- 大语言模型
- 多模态模型
- 损失函数