1、特征工程
数据和特征决定了结果的上界,模型、算法的选择及优化则是在逐步接近这个上界。
特征工程旨在去除原始数据中的杂质和冗余,设计更高效的特征以刻画求解的问题与预测模型之间的关系。
结构化数据 & 非结构化数据
1.1why特征归一化
线性函数归一化:对原始数据线性变换使结果映射到[0,1]范围
零均值归一化:映射到均值为0,标准差为1的分布上
如果不归一化,两种数值特征取值范围相差较大,那么在学习速率相同的情况下,更新速度不同,需要较多的迭代才能找到最优解。
归一化后可以更快通过梯度下降找到最优解。
使用梯度下降的算法需要归一化:线性回归、逻辑回归、svm、神经网络
决策树不需要
1.2 怎样处理类别型特征
性别、血型 --- 有限选项内取值的特征 字符串形式 --> 数值型特征(只有决策树可以接受字符串形式输入)
序号编码:具有大小关系的数据,比如成绩
独热编码:不具有大小关系的数据,利用向量的稀疏表示有效节省空间,配合特征选择降低维度
高维特征问题--> 1、K近邻算法中高维空间下两点之间的距离很难得到有效衡量;2、LR模型中参数的数量会随着维度的增高而增加引起过拟合;3、通常只有部分维度对分类、预测有帮助
二进制编码:利用二进制对ID进行哈希映射最终得到0/1特征向量,且维数少于独热编码节省了存储空间
1.3 组合特征与高维组合特征
为提高复杂关系的拟合能力,在特征工程中将一阶离散特征两两组合构成高阶组合特征。
高维处理:比如id特征的情况下,组合特征太多,m*n规模参数,此时将2个特征分别用k维的低维向量表示,m*k+n*k的参数规模,等价于矩阵分解。
1.4 怎样有效的找到组合特征
决策树
gbdt
1.5 文本表示模型及优缺点
词袋模型:每篇文章表示成一个长向量,每一维代表一个单词,忽略单词出现顺序,该维对应的权重是该词在原文中的重要程度
权重TF-IDF(t,d)=TF(t,d)×IDF(t),TF(t,d)是单词t在文档d中出现的频率,IDF(t)是逆文档频率
N-gram模型:将连续出现的n(n<=N)个词组成的词组(N-gram)作为一个单独的特征放到向量中取、词干抽取(Word Streaming)
主题模型:从文本库中发现有代表性的主题
词嵌入:将每个词映射成一个K维的向量,N*k的矩阵表示这篇文档。CNN和RNN在文本中效果好,一是建模抽取高层语义特征,二是减少了FC的参数,抓住文本特征
-- word2vec
P34-36
1.6 图像分类中训练数据不足的问题和解决方案
一个模型所能提供的信息源于2个方面:训练数据、形成过程,原始数据获取的信息少,则需要更多先验信息 模型结构、约束条件+数据变换扩展
图像分类上,易造成过拟合
--> 简化模型、添加约束(L1/L2)、集成学习、Dropout
--> 数据扩充
迁移学习:大部分图像分类任务并不需要从头开始训练模型,而是借用一个在大规模数据集上预训练好的通用模型,并在针对目标任务的小数据集上进行微调。
2、模型评估
2.1 准确率:样本不均衡 --> 平均准确率 (TP+TN)/(TP+TN+FP+FN)
2.2 精确率与召回率 precision = TP / (TP + FP)
recall = TP / (TP + FN) @N
P-R曲线
F1 = 2*p*r/(p+r)
2.3 RMSE一直很高的原因可能是什么?
rmse可以反映回归模型预测值与真实值的偏离程度,但是离群点会影响rmse
1、如果认为是噪声点,则预处理阶段去掉
2、如果不是,提高模型预测能力,把离群点产生的机制建模进去
3、MAPE(平均绝对百分比误差),把每个点的误差归一化了,降低了个别离群点带来的绝对误差的影响
2.4 ROC曲线
横坐标是假阳性率 纵坐标为真阳性率
FPR = FP / N 负样本中被误分为正的比例
TPR = TP / P 正样本中被正确分类的比例
2.5 AUC
ROC曲线下面积 0.5-1之间,AUC越大,说明分类器越可能把真正的正样本排在前面,分类性能越好
2.6 ROC VS P-R
正负样本的分布发生变化时,ROC曲线的形状基本保持不变,而P-R曲线的形状一般会发生剧烈变化
因此ROC能尽量降低不同测试集带来的干扰,更加客观的衡量模型本身的性能
2.7 余弦距离=1-余弦相似度 [0,2] 为什么一些场景中使用余弦相似度而不是欧氏距离
一对文本相似度的长度差距很大、内容相近时 词频/词向量-->欧氏距离很大
文本、图像等对象的特征维度较高,余弦相似度在高维情况下依然[-1,1],欧式范围不固定
欧氏距离体现数值上的绝对差异,比如登录数等
余弦距离体现方向上的相对差异,比如用户偏好
2.8 余弦距离并不满足距离的定义 (正定性、对称性、三角不等式)
2.9 AB测试 离线后为何还要在线ab?
1、离线评估无法完全消除模型过拟合的影响
2、离线评估无法完全还原线上的工程环境 延迟、数据丢失。。。
3、商业指标 ctr 留存时长 pv访问量。。。
2.10 如何线上ab?
用户分桶 随机性、采样无偏性
2.11 如何划分实验组和对照组
2.12 模型评估中的验证方法
样本划分为训练集和测试集 测试集用于评估模型
Holdout检验 样本随机分2部分,缺点是验证集上计算出来的最后评估指标与原始分组有很大关系
交叉检验:k个子集
留一验证:遍历n个样本分别验证,再指标求均值。时间开销大
自助法:样本规模小 n次有放回抽样,得到n的训练集,没被采样的作为验证集(n趋于无穷大时,验证集0.368)
2.13 超参数有哪些调优方法?
网格搜索 随机搜索 贝叶斯优化算法
2.14 过拟合与欠拟合
过拟合:更多训练数据、降低模型复杂度、正则化、集成学习
欠拟合:添加新特征、增加模型复杂度、减小正则化系数
3、基础算法
3.1 在空间上线性可分的两类点,分别向SVM分类的超平面上做投影,这些点在超平面上的投影仍然是线性可分的吗?
不是,会间隔落下。SVM的分类超平面仅有支持向量决定,