-
- 环境搭建
- 环境搭建是机器学习项目中的关键步骤,它涉及到为机器学习算法和模型提供必要的硬件和软件支持。这通常包括选择适当的编程语言(如Python或R),安装必要的库和框架(如Pytorch、TensorFlow或scikit-learn),以及配置高性能计算资源(如GPU)。
- 机器学习(Machine Learning)
- 概念
- Machine:
- 不是指传统的物理机器,可以理解为:平台、系统、软件、代码。。。
- 在机器学习的语境中,Machine不仅仅指传统的物理机器,它更多地是指一个平台、系统、软件或代码集合,这些工具或平台能够执行特定的任务或计算。
- Learning:
- 一个平台/系统,经历了某些特定的过程后,自身的性能得到提升,这个过程就叫学习。
- 在机器学习中指的是一个过程,即平台或系统通过接触数据并应用某种算法来改进其性能或预测能力。这个过程通常涉及模型的训练,通过不断调整模型参数以最小化预测误差。
- Machine:
- 项目流程
- 第一步
- 从宏观角度来分析问题,明确输入输出内容:
- 第一步
- 概念
- 环境搭建
在进行任何机器学习项目之前,首先需要对问题进行深入的分析和理解。这包括明确项目的目标、确定要解决的具体问题、理解相关背景和领域知识,以及收集和分析可用的数据。
在分析问题的过程中,一个关键步骤是明确模型的输入和输出。输入通常指的是原始数据或特征,而输出则是模型基于这些输入生成的预测或分类结果。明确输入输出内容有助于选择合适的算法和模型结构,并构建有效的数据处理和特征工程流程。
-
-
-
-
-
- 中英翻译器:
- 输入:中文
- 输出:英文
- 原理:一个常见的机器学习应用示例是中英翻译器。这种系统通过训练大量的中英文对照数据来学习翻译规则,从而能够将中文句子翻译成英文,或反之。在这个过程中,模型的输入是待翻译的中文或英文句子,输出则是翻译后的对应语言句子。
- 房价预测
- 输入:房子信息
- 输出:价格
- 人脸检测
- 输入:图像
- 输出:人脸
- 中英翻译器:
-
- 第二步
- 按照输入和输出,构建数据集
- 数据(相当于一个二维表格)
- 一行数据代表一个样本
- 一列代表一个特征
- 格式
- 前面放特征(输入)
- 最后一个放标签(输出)
- 数据(相当于一个二维表格)
- 按照输入和输出,构建数据集
- 第三步
- 寻找一种合适的机器学习算法,完成输入到输出的映射
- 遴选一种合适的算法
- 准备数据给算法学习
- 完成算法的训练
- 模型评估
- 寻找一种合适的机器学习算法,完成输入到输出的映射
- 第四步
- 部署投产算法,工程集成应用
- 第五步
- 模型不断地迭代升级
-
-
- 算法和模型
- 算法(Algorithm)
- 抽象的
- 计算机执行一个任务时,具体的执行步骤,称为算法
- 模型(Model)
- 具象的:模型是算法的具象化
- 通过代码来实现具体的算法,称为模型
- 算法(Algorithm)
- 传统算法 vs 人工智能算法
- 传统算法
- rule-base algorithm,基于规则的算法
- 规则是靠人制定的
- 专业
- 要求数学和计算机学科背景
- 难度很大
- 复杂度低
- 时间复杂度和空间复杂度都很低,所以对硬件要求很低,代码执行速度很快
- 效果
- 鲁棒性差(容错能力差),泛化能力很弱,解释性好
- 人工智能算法
- data-based algorithm,基于数据的算法
- 从老数据中挖掘规律
- 训练(train)、学习(learn)、拟合(fit)
- 将新数据作用于新数据
- 推理(infer)、预测(predict)、测试(test)
- 难度很低
- 复杂度高
- 时间复杂度和空间复杂度都很低,所以对硬件要求很高,代码执行速度很慢
- 效果
- 鲁棒性好(容错能力强),泛化能力很强,解释性差
- 传统算法
- 数据科学三剑客
- Numpy
- 科学计算库,用于向量化和矩阵化计算
- Matplotlib
- 数据可视化,可以实现一行代码绘图
- Pandas
- 二维表数据分析神奇
- Numpy
- 数学知识
- 高等数学
- 做优化的(梯度下降法)
- 概率论和数学原理统计
- 做建模思想
- 线性代数和矩阵论
- 高性能科学计算
- 高等数学
-