《百面机器学习》读书笔记

最新推荐文章于 2021-02-01 13:02:46 发布

ludanwss0716

最新推荐文章于 2021-02-01 13:02:46 发布

阅读量207

点赞数

分类专栏：机器学习文章标签：机器学习面试

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ludanwss0716/article/details/100077933

版权

机器学习专栏收录该内容

7 篇文章 0 订阅

订阅专栏

1、特征工程

数据和特征决定了结果的上界，模型、算法的选择及优化则是在逐步接近这个上界。

特征工程旨在去除原始数据中的杂质和冗余，设计更高效的特征以刻画求解的问题与预测模型之间的关系。

结构化数据 & 非结构化数据

1.1why特征归一化

线性函数归一化：对原始数据线性变换使结果映射到[0,1]范围

零均值归一化：映射到均值为0，标准差为1的分布上

如果不归一化，两种数值特征取值范围相差较大，那么在学习速率相同的情况下，更新速度不同，需要较多的迭代才能找到最优解。

归一化后可以更快通过梯度下降找到最优解。

使用梯度下降的算法需要归一化：线性回归、逻辑回归、svm、神经网络

决策树不需要

1.2 怎样处理类别型特征

性别、血型 --- 有限选项内取值的特征字符串形式 --> 数值型特征(只有决策树可以接受字符串形式输入)

序号编码：具有大小关系的数据，比如成绩

独热编码：不具有大小关系的数据，利用向量的稀疏表示有效节省空间，配合特征选择降低维度

高维特征问题--> 1、K近邻算法中高维空间下两点之间的距离很难得到有效衡量；2、LR模型中参数的数量会随着维度的增高而增加引起过拟合；3、通常只有部分维度对分类、预测有帮助

二进制编码：利用二进制对ID进行哈希映射最终得到0/1特征向量，且维数少于独热编码节省了存储空间

1.3 组合特征与高维组合特征

为提高复杂关系的拟合能力，在特征工程中将一阶离散特征两两组合构成高阶组合特征。

高维处理：比如id特征的情况下，组合特征太多，m*n规模参数，此时将2个特征分别用k维的低维向量表示，m*k+n*k的参数规模，等价于矩阵分解。

1.4 怎样有效的找到组合特征

决策树

gbdt

1.5 文本表示模型及优缺点

词袋模型：每篇文章表示成一个长向量，每一维代表一个单词，忽略单词出现顺序，该维对应的权重是该词在原文中的重要程度

权重TF-IDF(t,d)=TF(t,d)×IDF(t)，TF(t,d)是单词t在文档d中出现的频率，IDF(t)是逆文档频率

N-gram模型：将连续出现的n(n<=N)个词组成的词组(N-gram)作为一个单独的特征放到向量中取、词干抽取(Word Streaming)

主题模型：从文本库中发现有代表性的主题

词嵌入：将每个词映射成一个K维的向量，N*k的矩阵表示这篇文档。CNN和RNN在文本中效果好，一是建模抽取高层语义特征，二是减少了FC的参数，抓住文本特征

-- word2vec

P34-36

1.6 图像分类中训练数据不足的问题和解决方案

一个模型所能提供的信息源于2个方面：训练数据、形成过程，原始数据获取的信息少，则需要更多先验信息模型结构、约束条件+数据变换扩展

图像分类上，易造成过拟合

--> 简化模型、添加约束(L1/L2)、集成学习、Dropout

--> 数据扩充

迁移学习：大部分图像分类任务并不需要从头开始训练模型，而是借用一个在大规模数据集上预训练好的通用模型，并在针对目标任务的小数据集上进行微调。

2、模型评估

2.1 准确率：样本不均衡 --> 平均准确率 (TP+TN)/(TP+TN+FP+FN)

2.2 精确率与召回率 precision = TP / (TP + FP)

recall = TP / (TP + FN) @N

P-R曲线

F1 = 2*p*r/(p+r)

2.3 RMSE一直很高的原因可能是什么？

rmse可以反映回归模型预测值与真实值的偏离程度，但是离群点会影响rmse

1、如果认为是噪声点，则预处理阶段去掉

2、如果不是，提高模型预测能力，把离群点产生的机制建模进去

3、MAPE(平均绝对百分比误差)，把每个点的误差归一化了，降低了个别离群点带来的绝对误差的影响

2.4 ROC曲线

横坐标是假阳性率纵坐标为真阳性率

FPR = FP / N 负样本中被误分为正的比例

TPR = TP / P 正样本中被正确分类的比例

2.5 AUC

ROC曲线下面积 0.5-1之间，AUC越大，说明分类器越可能把真正的正样本排在前面，分类性能越好

2.6 ROC VS P-R

正负样本的分布发生变化时，ROC曲线的形状基本保持不变，而P-R曲线的形状一般会发生剧烈变化

因此ROC能尽量降低不同测试集带来的干扰，更加客观的衡量模型本身的性能

2.7 余弦距离=1-余弦相似度 [0,2] 为什么一些场景中使用余弦相似度而不是欧氏距离

一对文本相似度的长度差距很大、内容相近时词频/词向量-->欧氏距离很大

文本、图像等对象的特征维度较高，余弦相似度在高维情况下依然[-1,1]，欧式范围不固定

欧氏距离体现数值上的绝对差异，比如登录数等

余弦距离体现方向上的相对差异，比如用户偏好

2.8 余弦距离并不满足距离的定义 (正定性、对称性、三角不等式)

2.9 AB测试离线后为何还要在线ab?

1、离线评估无法完全消除模型过拟合的影响

2、离线评估无法完全还原线上的工程环境延迟、数据丢失。。。

3、商业指标 ctr 留存时长 pv访问量。。。

2.10 如何线上ab?

用户分桶随机性、采样无偏性

2.11 如何划分实验组和对照组

2.12 模型评估中的验证方法

样本划分为训练集和测试集测试集用于评估模型

Holdout检验样本随机分2部分，缺点是验证集上计算出来的最后评估指标与原始分组有很大关系

交叉检验：k个子集

留一验证：遍历n个样本分别验证，再指标求均值。时间开销大

自助法：样本规模小 n次有放回抽样，得到n的训练集，没被采样的作为验证集(n趋于无穷大时，验证集0.368)

2.13 超参数有哪些调优方法？

网格搜索随机搜索贝叶斯优化算法

2.14 过拟合与欠拟合

过拟合：更多训练数据、降低模型复杂度、正则化、集成学习

欠拟合：添加新特征、增加模型复杂度、减小正则化系数

3、基础算法

3.1 在空间上线性可分的两类点，分别向SVM分类的超平面上做投影，这些点在超平面上的投影仍然是线性可分的吗？

不是，会间隔落下。SVM的分类超平面仅有支持向量决定，

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
《百面机器学习》读书笔记

1、特征工程数据和特征决定了结果的上界，模型、算法的选择及优化则是在逐步接近这个上界。特征工程旨在去除原始数据中的杂质和冗余，设计更高效的特征以刻画求解的问题与预测模型之间的关系。结构化数据 & 非结构化数据1.1why特征归一化线性函数归一化：对原始数据线性变换使结果映射到[0,1]范围零均值归一化：映射到均值为0，标准差为1的分布上如果不归一化，两种数值特征...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。