1、名词定义
"""
特征 (feature)
属性 (Attribute)
特征向量 (Feature Vector)
标签 (Label)
回归 (Regression)
特征(属性) x 特征向量 = 标签(label)
- 标签连续 —— 回归问题(Regression)
- 标签不连续(离散) —— 分类问题(Classification)
样本(Sample)
实例(Instance)
数据集(Dataset)
训练集(Training)
测试集(Test Set)
模型(Model)- 需要拟合的函数
多层感知机 - (Multi - LayerPerceptron)
"""
机器学习三要素
1、模型 :映射函数 或 条件概率分布
2、学习策略 :如何从假设空间中,选处最优的模型
- (1)、 损失函数(Loss Function)
(1.1)、常见损失函数
- 0-1 损失函数(0-1 Loss Function )
- 平方损失函数(Quadratic Loss Function) - 适用于回归任务
- 绝对值损失函数(Absolute Loss Function)- 预测连续实值得回归任务
- 对数损失函数或 / 负对数损失函数(Logarithmic Loss Function)
- 交叉熵损失函数(Cross-Entropy Loss Function)- 用于分类任务,对一个或多个分类任务,共有C个类别供选择
- Hing 损失函数(Hing Loss Function )- 对二分类问题,标签得取值范围为(-1,1),预测值连续实数
- (2)、代价函数(Cost Function)
3、优化算法(Optimization)
- 梯度下降法 (Gradient Descent ,GD)
- 随机梯度下降法(Stochastic Gradient Descent ,SGD)
- 小批量梯度下降法 (Mini -Batch Gradient Descent ,MBGD)
数据预处理
数据清洗步骤
1. 分析数据
2. 残缺数据处理 - 直接删除、赋予常量、 赋予均值或中位数、插补法、建模法
3. 错误数据处理 - 数据分析、3-sigma 原则、箱型图、建模法、基于距离、基于密度、
4. 重复数据处理 - 去除重复数据
数据集拆分
数据集拆分
- 训练集(Training Dataset)
- 验证集(Validation Dataset)
- 测试集(Test Dataset)
数据集划分方法
1、留出法(Hold - Out)- 拆分成训练集、测试集、无验证集。(3 :7)
2、K - 折交叉验证法(K-Fold Cross Validation)- 将数据均分成 k个集合,得到 k个训练集和测试集 (K = 5、10、20)
3、自助法(Bootstrap) - 初始训练集为空、每次选一个进入
数据集得不平衡处理(重采样)
1、随机欠采样
2、随机过采样
3、基于聚类得过采样
4、合成少数类采样技术
特征工程
原始特征(Raw Feature)
中间特征图(Feature Map)
图像(Image)
- 图像得高、宽
- 图像颜色 (RGB)
- 色调、饱和度(HSI)
- 通道 (Channel)
行人检测
1. 图像提取 梯度直方图特征(Histogram of Gradient ,HOG)
2. 利用支持向量机对其中候选区域分类(Support Vetor Machine ,SVM)
特征选择方法
1、从大量特征中选择 固定数量的特征、并且是模型效果最好
2、对给定的目标性能、找出最小的特征子集
3、在模型性能和特征中找到一个折中点
特征的标准化
- 线性标准化
- 标准差标准化
- logistic 标准化
- 反正切函数标准化
- 小数定标标准化
向前搜索法(forward search)
向后搜索法 (backward search)
子集搜索(subset search)
- 过滤式(filter)
- 包裹式(wraper)
准确率(Accuracy)
错误率(Error Rate)
查准率(Precisio)
查全率(Recall)