【算法面经】《百面机器学习算法工程师带你去面试》笔记

dudubababala

于 2023-11-30 14:47:46 发布

阅读量1.2k

点赞数 16

文章标签：算法机器学习笔记

本文链接：https://blog.csdn.net/qq_43482808/article/details/134712143

版权

这篇博客详述了机器学习面试的关键知识点，包括特征工程、SVM、逻辑回归、决策树、降维、非监督学习、概率图模型等。深入探讨了正则化、采样、神经网络等技术，以及如何处理过拟合和欠拟合问题。还涵盖了集成学习，特别是GBDT及其变种XGBoost。

摘要由CSDN通过智能技术生成

特征工程

结构化数据：表

非结构化数据：图像、音频、视频

2.归一化：梯度下降求解更快

Min-max归一化：（x-min）/（max-min）

z-score归一化：（x-u）/σ

3.类别型特征

序号编码：保留相对大小关系

独热编码：需要配合特征选择或者使用稀疏向量节省空间

二进制编码：000，001，010

4.高维数据：

距离计算困难

间接引起模型复杂度上升

需要配合特征选择

5.组合特征：通过决策树方法构建

6.图像数据不足：通过扩充、缩放、变换扩展数据集

（1）裁切、旋转

（2）亮度、清晰度、锐度对比度变换

（3）添加椒盐噪声、高斯噪声

（4）RGB颜色变换

过拟合：

正则化、Dropout、扩充数据集、缩减模型、预训练fine-tune、集成学习

欠拟合：

减小正则化系数、增加模型复杂度、增加数据属性

准确率=T/(T+F)

P-R曲线：变化更剧烈，局限于特定的数据集

ROC曲线：TPR=TP/(TP+FN);FPR=FP/(FP+TN)，更客观

RMSE比MAPE更易受离群点影响。

距离：满足三角不等式、对称性、正定性

余弦距离：方向上的相对距离

余弦相似度=1-余弦距离

9.训练集和验证集划分：留出法（37分），k折交叉法，自助法（有放回n次抽样，36.8%）

10.参数调优：随机搜索、启发式算法、网格搜索、贝叶斯寻优

SVM

（1）线性可分的点在分类超平面上的投影一定不可分。

（2）若不存在两点共位置，比存在一组参数使得SVM模型的训练误差为0，但不一定满足SVM条件。

（3）增加了松弛变量的SVM不一定训练误差为0，但这也不一定是模型追求的目标，因为正则化项也在优化目标之中。

逻辑回归

分类模型，可以多分类，梯度下降的方法进行优化。

决策树

	ID3	C4.5	CART
缺失值敏感	🙋‍
形态	多叉树	多叉树	二叉树
功能

最低0.47元/天解锁文章

dudubababala

关注

16
点赞
踩
19

收藏

觉得还不错? 一键收藏
0
评论
【算法面经】《百面机器学习算法工程师带你去面试》笔记

9.训练集和验证集划分：留出法（37分），k折交叉法，自助法（有放回n次抽样，36.8%）正则化、Dropout、扩充数据集、缩减模型、预训练fine-tune、集成学习。（2）GMM聚类：EM算法求解：假设每簇数据遵循正态分布（椭圆状）、生成式模型。外部：Jaccard指数（↑）、Rand指数（↑）、FM指数（↑）（3）聚类簇的定义：中心定义、密度定义、概念定义、连通定义。Min-max归一化：（x-min）/（max-min）CRF、HMM、最大熵模型、朴素贝叶斯模型、主题模型。
复制链接

扫一扫