《百面机器学习》读书笔记

1、特征工程

数据和特征决定了结果的上界,模型、算法的选择及优化则是在逐步接近这个上界。

特征工程旨在去除原始数据中的杂质和冗余,设计更高效的特征以刻画求解的问题与预测模型之间的关系。

结构化数据 & 非结构化数据

1.1why特征归一化

线性函数归一化:对原始数据线性变换使结果映射到[0,1]范围

零均值归一化:映射到均值为0,标准差为1的分布上

如果不归一化,两种数值特征取值范围相差较大,那么在学习速率相同的情况下,更新速度不同,需要较多的迭代才能找到最优解。

归一化后可以更快通过梯度下降找到最优解。

使用梯度下降的算法需要归一化:线性回归、逻辑回归、svm、神经网络

决策树不需要

 

1.2 怎样处理类别型特征

性别、血型 --- 有限选项内取值的特征 字符串形式 --> 数值型特征(只有决策树可以接受字符串形式输入)

序号编码:具有大小关系的数据,比如成绩

独热编码:不具有大小关系的数据,利用向量的稀疏表示有效节省空间,配合特征选择降低维度

高维特征问题--> 1、K近邻算法中高维空间下两点之间的距离很难得到有效衡量;2、LR模型中参数的数量会随着维度的增高而增加引起过拟合;3、通常只有部分维度对分类、预测有帮助

二进制编码:利用二进制对ID进行哈希映射最终得到0/1特征向量,且维数少于独热编码节省了存储空间

 

1.3 组合特征与高维组合特征

为提高复杂关系的拟合能力,在特征工程中将一阶离散特征两两组合构成高阶组合特征。

高维处理:比如id特征的情况下,组合特征太多,m*n规模参数,此时将2个特征分别用k维的低维向量表示,m*k+n*k的参数规模,等价于矩阵分解。

 

1.4 怎样有效的找到组合特征

决策树

gbdt

 

1.5 文本表示模型及优缺点

词袋模型:每篇文章表示成一个长向量,每一维代表一个单词,忽略单词出现顺序,该维对应的权重是该词在原文中的重要程度

权重TF-IDF(t,d)=TF(t,d)×IDF(t),TF(t,d)是单词t在文档d中出现的频率,IDF(t)是逆文档频率

N-gram模型:将连续出现的n(n<=N)个词组成的词组(N-gram)作为一个单独的特征放到向量中取、词干抽取(Word Streaming)

主题模型:从文本库中发现有代表性的主题

词嵌入:将每个词映射成一个K维的向量,N*k的矩阵表示这篇文档。CNN和RNN在文本中效果好,一是建模抽取高层语义特征,二是减少了FC的参数,抓住文本特征

-- word2vec

P34-36

 

1.6 图像分类中训练数据不足的问题和解决方案

一个模型所能提供的信息源于2个方面:训练数据、形成过程,原始数据获取的信息少,则需要更多先验信息 模型结构、约束条件+数据变换扩展

图像分类上,易造成过拟合

--> 简化模型、添加约束(L1/L2)、集成学习、Dropout

--> 数据扩充

迁移学习:大部分图像分类任务并不需要从头开始训练模型,而是借用一个在大规模数据集上预训练好的通用模型,并在针对目标任务的小数据集上进行微调。

 

 

2、模型评估

2.1 准确率:样本不均衡 --> 平均准确率 (TP+TN)/(TP+TN+FP+FN)

2.2 精确率与召回率 precision = TP / (TP + FP)

recall = TP / (TP + FN) @N

P-R曲线

F1 = 2*p*r/(p+r)

2.3 RMSE一直很高的原因可能是什么?

rmse可以反映回归模型预测值与真实值的偏离程度,但是离群点会影响rmse

1、如果认为是噪声点,则预处理阶段去掉

2、如果不是,提高模型预测能力,把离群点产生的机制建模进去

3、MAPE(平均绝对百分比误差),把每个点的误差归一化了,降低了个别离群点带来的绝对误差的影响

2.4 ROC曲线

横坐标是假阳性率 纵坐标为真阳性率

FPR = FP / N 负样本中被误分为正的比例

TPR = TP / P 正样本中被正确分类的比例

2.5 AUC

ROC曲线下面积 0.5-1之间,AUC越大,说明分类器越可能把真正的正样本排在前面,分类性能越好

2.6 ROC VS P-R

正负样本的分布发生变化时,ROC曲线的形状基本保持不变,而P-R曲线的形状一般会发生剧烈变化

因此ROC能尽量降低不同测试集带来的干扰,更加客观的衡量模型本身的性能

 

2.7 余弦距离=1-余弦相似度 [0,2] 为什么一些场景中使用余弦相似度而不是欧氏距离

一对文本相似度的长度差距很大、内容相近时 词频/词向量-->欧氏距离很大

文本、图像等对象的特征维度较高,余弦相似度在高维情况下依然[-1,1],欧式范围不固定

欧氏距离体现数值上的绝对差异,比如登录数等

余弦距离体现方向上的相对差异,比如用户偏好

 

2.8 余弦距离并不满足距离的定义 (正定性、对称性、三角不等式)

 

2.9 AB测试 离线后为何还要在线ab?

1、离线评估无法完全消除模型过拟合的影响

2、离线评估无法完全还原线上的工程环境 延迟、数据丢失。。。

3、商业指标 ctr 留存时长 pv访问量。。。

 

2.10 如何线上ab?

用户分桶 随机性、采样无偏性

 

2.11 如何划分实验组和对照组

 

2.12 模型评估中的验证方法

样本划分为训练集和测试集 测试集用于评估模型

Holdout检验 样本随机分2部分,缺点是验证集上计算出来的最后评估指标与原始分组有很大关系

交叉检验:k个子集

留一验证:遍历n个样本分别验证,再指标求均值。时间开销大

自助法:样本规模小 n次有放回抽样,得到n的训练集,没被采样的作为验证集(n趋于无穷大时,验证集0.368)

 

2.13 超参数有哪些调优方法?

网格搜索 随机搜索 贝叶斯优化算法

 

2.14 过拟合与欠拟合

过拟合:更多训练数据、降低模型复杂度、正则化、集成学习

欠拟合:添加新特征、增加模型复杂度、减小正则化系数

 

3、基础算法

3.1 在空间上线性可分的两类点,分别向SVM分类的超平面上做投影,这些点在超平面上的投影仍然是线性可分的吗?

不是,会间隔落下。SVM的分类超平面仅有支持向量决定,

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值