机器学习解决问题的一般流程

最新推荐文章于 2022-05-08 00:10:04 发布

LegenDavid

最新推荐文章于 2022-05-08 00:10:04 发布

阅读量1.3k

点赞数 1

分类专栏：机器学习算法相关

本文链接：https://blog.csdn.net/LegenDavid/article/details/81019481

版权

本文详细介绍了机器学习中从数据探索到模型优化的整个流程，包括数据预处理、特征工程、模型选择、损失函数确定以及优化方法的选择。在数据预处理阶段，涉及数据抽样、过滤和分割；特征工程中，讨论了如何处理缺失值和异常值，以及文本特征的处理。在模型选择方面，讲解了不同模型的假设空间，强调了损失函数在评估模型中的作用。最后，探讨了优化方法，如梯度下降及其应用。

摘要由CSDN通过智能技术生成

数据：

数据分析和探索：

整体分析数据：类型，大小，属性数目，可视化
各个属性分析：类型，大小，分布
问题类型识别：分类，回归，聚类
数据缺失分析：缺失百分比，缺失数据和其他数据关系

数据预处理：

数据抽样：Sample，有时候因为样本量较大，出于训练时间的考虑需要对样本进行采样
数据过滤：对于一些脏数据进行过滤，例如对于ctr预估负样本来说的无效曝光等。
数据分割：Splitter，用于交叉验证，主要是要将训练集分成Train和Validate两部分, 注意不要对整个数据进行分割，因为数据处理之后具体内容会有变化，所以我们可以仅进行index分割（即记录Id分割）。同时分割还有一些更复杂的处理技巧，比如考虑样本之间交集情况等。
- 简单分割：Leave One Out, Kfolder
- 复杂分割：根据Train和Test集合的重合度进行分割
- Level分割：第一层划分后再对第一层进行第二次划分，如此继续
- 时序分割：对于有时序的样本采用

特征：

简单处理：

缺失值处理：填上与正常数据明显不同的特殊标记，例如很大的负值等；也可以利用已有值的均值或者建模推测可能的值进行补充
异常处理：处理异常点，往往可以通过探索阶段生成的图找异常点，或者根据分位点找异常值
其他处理：名称变换
数字：主要解决峰度和偏度以及量纲不同等问题，scaling取log，去掉outlier，normalize，类别：Category，One Hot，LabelEncoder
文本：各种自然语言处理例如大小写转换，驼峰字拆分，单位转换，词替换
‘-’字拆分
数字词拆分
数字转换（one->1）
特殊字符处理
Html字符处理
词根还原
单复还原
分词
停用词，特殊情况单独处理
自动纠错
长文本合并” “或者成list

特征工程：

数据组合：组合一些特征得到新属性
数据分割：分割一些属性得到更多属性
数据筛选：只要某些属性值
稀疏特征、稠密特征、embedding、表示学习

文本：Text，自然语言处理的各项技术上！
大小写转换
驼峰字拆分
单位转换
词替换
‘-’字拆分
数字词拆分
数字转换（one->1）
特殊字符处理
Html字符处理
词根还原
单复还原
分词
停用词，特殊情况单独处理
自动纠错
长文本合并” “或者成list
其他

模型选择：

模型是指基于训练数据集，所要学习到的概率分布或者决策函数，比如线性模型(线性回归，逻辑回归等)，非线性模型（决策树，神经网络）。还有个重要概念，就是模型的假设空间。比如需要学习的决策函数为线性函数，则所有的线性函数构成了该模型的假设空间。

策略（损失函数）确定：

确定了需要学习哪种模型，接下来任务的便是从该类模型的假设空间中选择出最优的模型。

模型的优劣需要通过一定的准则来评价，直观来讲，选用模型的预测误差作为评判标准比较合理。而不同的模型基于模型原理或解优化的便利性，往往对应着不同的误差函数，也叫损失函数，如：

平方损失函数，对应线性回归；
对数损失函数，对应logistic回归；
指数损失函数，对应boosting；
hinge损失函数，对应SVM；

这里所说的策略就是指：当目标函数仅含有损失函数时，对应经验风险最小化策略，即选择的最优模型在训练集上的平均损失最小；而当目标函数由损失函数项和正则化项构成时，对应结构风险最小化策略，即选择的最优模型不仅在训练集上平均误差比较小，同时在测试集上也能有不错的表现，也就是说得到的模型要有较好的泛化能力。

当样本集数目足够大时，由于样本的覆盖量足够大，能较好地体现实际数据的分布，直接采用经验风险最小化策略就能保证有很好的学习效果；但当样本容量不够充足时，并不能很好的体现真实的数据分布，因此过于追求减小模型在训练集上的误差，就容易导致“过拟合”现象，即学习到的模型在未知测试数据上效果不理想。
5. logloss、hingeloss、softmax、hierarchical softmax、negative sampling……

最低0.47元/天解锁文章

LegenDavid

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习解决问题的一般流程

确定损失函数L(θ,X)L(θ,X)L(\theta,X)，其中θθ\theta是待求解的模型参数，XXX是样本参数，对θθ\theta求偏导数∂L(θ,X)∂θ∂L(θ,X)∂θ\dfrac{\partial L(\theta,X)}{\partial \theta}得到梯度ggg以sgd为例，取每一个样本，得到对应的梯度ggg，然后根据梯度对θθ\theta进行迭代θ:=θ−ηgθ:=θ...
复制链接

扫一扫

专栏目录