A. 算法设计步骤 — 数据预处理
训练数据过少
- 技术手段
- 数据扩充
- 数据增强
- 有很多方法可以扩充数据。仍然是汽车图像的例子,你可以旋转原始图像,更改光照条件,以不同方式裁剪。因此对于一个图像,你可以生成不同的子样本。 这样,你就可以减少对分类器的过度拟合。
- 合成数据
- 通过GMM生成数据
- 数据增强
- 算法
- 迁移学习
- 预训练模型
- 专家系统/知识图谱
- 数据扩充
- 非技术手段
- 通过数据工程的手段,采集用户数据
- 通过产品,跟用户产生互动,以此产生数据
- 对于运维,可用通过混沌工程采集数据
数据预处理
- 数据采样
- 上采样
- 下采样
- 处理缺失值
- 丢失缺失值(数据量大,缺失值少,比如互联网数据)
- 遗失值插补
- 该列的存在值的平均值
- 去除唯一属性
- 数据正则化,标准化
- 数据摘要
特征提取
- 特征列
- 数值列
- 分桶列
- 分类标识列
- 分类词汇列
- 经过哈希处理的列
- 组合列
- 指标列和嵌入列
- 特征提取算法
- 文本
- TFIDF
- 文本
- 特征选取
- 步骤
- 搜索新的特征子集
- 对搜索结果进行评估
- 方法
- 包裹法
- 过滤法
- 嵌入法
- 步骤
降维
- 线性降维
- PCA: 主成分分析(无监督)
- 步骤
- 数据规范化
- 协方差矩阵计算
- 特征值分解
- 降维处理
- 数据投影
- 缺点
- 只能做线性降维,无法做非线性降维
- 算法
- NMF(Non-negative matrix factorization)
- 没有非负限制的降维
- 步骤
- LDA: 监督算法
- 结合label,做线性降维。
- PCA: 主成分分析(无监督)
- 非线性降维
- 基于图的降维
- 拉普拉斯特征映射(LE)
- 拉普拉斯特征映射是一种基于图的降维算法,它希望相互间有关系的点(在图中相连的点)在降维后的空间中尽可能的靠近,从而在降维后仍能保持原有的数据结构。
- 局部线性嵌入(LLE)
- 概述
- LLE关注于降维时保持样本局部的线性特征,由于LLE在降维时保持了样本的局部特征,它广泛的用于图像图像识别,高维数据可视化等领域。
- 目标
- 我们有一块卷起来的布,我们希望将其展开到一个二维平面,我们希望展开后的布能够在局部保持布结构的特征,其实也就是将其展开的过程,就想两个人将其拉开一样。
- 在局部保持布结构的特征,或者说数据特征的方法有很多种,不同的保持方法对应不同的流形算法:比如说
- 等距映射(ISOMAP)算法在降维后希望保持样本之间的测地距离而不是欧式距离,因为测地距离更能反映样本之间在流形中的真实距离。
- 问题
- 等距映射算法有一个问题就是他要找所有样本全局的最优解,当数据量很大,样本维度很高时,计算非常的耗时
- 解决思路
- LLE通过放弃所有样本全局最优的降维,只是通过保证局部最优来降维。同时假设样本集在局部是满足线性关系的,进一步减少的降维的计算量。
- 问题
- 等距映射(ISOMAP)算法在降维后希望保持样本之间的测地距离而不是欧式距离,因为测地距离更能反映样本之间在流形中的真实距离。
- 核心思想
- 概述
- 拉普拉斯特征映射(LE)
- t-SNE
- 问题
- LE和LLE只能处理相近的点相近,无法处理不同的点也可能相近的情况
- 两种分布的条件概率尽可能的相近,可以用梯度下降的方法
- 计算不同的点之间的相似度
- 计算不同点之间相似度的条件概率
- 优化
- 先做 PCA 到一定程度,再做t-SNE
- 问题
- 基于图的降维
- 因子分析
- 独立成分分析