机器学习笔记

最新推荐文章于 2024-01-22 19:13:26 发布

LCL-2019

最新推荐文章于 2024-01-22 19:13:26 发布

阅读量123

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/weixin_43056654/article/details/104056866

版权

机器学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

1、名词定义

"""
特征 (feature)
属性 (Attribute)
特征向量 (Feature Vector)
标签 (Label)
回归 (Regression)

特征（属性） x 	特征向量 	= 标签(label)
 -  标签连续 —— 回归问题（Regression）
 -  标签不连续（离散） ——  分类问题（Classification）

样本（Sample）
实例（Instance）
数据集（Dataset）
训练集（Training）
测试集（Test Set）

模型（Model）- 需要拟合的函数
多层感知机 - （Multi - LayerPerceptron）
"""

机器学习三要素

1、模型 ：映射函数 或 条件概率分布

2、学习策略 ：如何从假设空间中，选处最优的模型
 	- (1)、 损失函数（Loss Function）
 		(1.1)、常见损失函数 
 			- 0-1 损失函数（0-1 Loss Function ）
 			- 平方损失函数（Quadratic Loss Function） -  适用于回归任务
			- 绝对值损失函数（Absolute Loss Function）- 预测连续实值得回归任务
 			- 对数损失函数或 / 负对数损失函数（Logarithmic Loss Function）
 			- 交叉熵损失函数（Cross-Entropy Loss Function）- 用于分类任务，对一个或多个分类任务，共有C个类别供选择
 			- Hing 损失函数（Hing Loss Function ）- 对二分类问题，标签得取值范围为（-1，1），预测值连续实数	
 	- (2)、代价函数（Cost Function）

3、优化算法（Optimization)
 - 梯度下降法 （Gradient Descent ，GD）
 - 随机梯度下降法（Stochastic Gradient Descent ,SGD）
 - 小批量梯度下降法 (Mini -Batch Gradient Descent ,MBGD)

数据预处理

数据清洗步骤
 	1. 分析数据
 	2. 残缺数据处理 -  直接删除、赋予常量、 赋予均值或中位数、插补法、建模法
 	3. 错误数据处理 - 数据分析、3-sigma 原则、箱型图、建模法、基于距离、基于密度、
 	4. 重复数据处理 - 去除重复数据

数据集拆分

数据集拆分
 	- 训练集（Training Dataset）
 	- 验证集（Validation Dataset）
 	- 测试集（Test Dataset）

数据集划分方法
	1、留出法（Hold - Out）- 拆分成训练集、测试集、无验证集。（3  ：7）
	2、K - 折交叉验证法（K-Fold Cross Validation）-  将数据均分成 k个集合，得到 k个训练集和测试集 （K = 5、10、20） 
	3、自助法（Bootstrap） - 初始训练集为空、每次选一个进入

数据集得不平衡处理（重采样）
	1、随机欠采样
	2、随机过采样
	3、基于聚类得过采样
	4、合成少数类采样技术

特征工程

原始特征（Raw Feature）
中间特征图（Feature Map）

图像（Image）
 - 图像得高、宽
 - 图像颜色 (RGB)
 - 色调、饱和度（HSI）
 - 通道 （Channel）


行人检测
 	1. 图像提取 梯度直方图特征（Histogram of Gradient ,HOG）
 	2. 利用支持向量机对其中候选区域分类（Support Vetor Machine ,SVM）
 

特征选择方法
	1、从大量特征中选择 固定数量的特征、并且是模型效果最好
	2、对给定的目标性能、找出最小的特征子集
	3、在模型性能和特征中找到一个折中点


特征的标准化
 	- 线性标准化
 	- 标准差标准化
 	- logistic 标准化
 	- 反正切函数标准化
 	- 小数定标标准化


向前搜索法(forward search)
向后搜索法 	(backward search)
子集搜索(subset search)
 	- 过滤式(filter)
 	- 包裹式(wraper)
 

准确率(Accuracy)
错误率(Error Rate)
查准率(Precisio)
查全率(Recall)