【算法面经】《百面机器学习 算法工程师带你去面试》笔记

这篇博客详述了机器学习面试的关键知识点,包括特征工程、SVM、逻辑回归、决策树、降维、非监督学习、概率图模型等。深入探讨了正则化、采样、神经网络等技术,以及如何处理过拟合和欠拟合问题。还涵盖了集成学习,特别是GBDT及其变种XGBoost。
摘要由CSDN通过智能技术生成

特征工程

1.

结构化数据:表

非结构化数据:图像、音频、视频

2.归一化:梯度下降求解更快

Min-max归一化:(x-min)/(max-min)

z-score归一化:(x-u)/σ

3.类别型特征

序号编码:保留相对大小关系

独热编码:需要配合特征选择或者使用稀疏向量节省空间

二进制编码:000,001,010

4.高维数据:

距离计算困难

间接引起模型复杂度上升

需要配合特征选择

5.组合特征:通过决策树方法构建

6.图像数据不足:通过扩充、缩放、变换扩展数据集

(1)裁切、旋转

(2)亮度、清晰度、锐度对比度变换

(3)添加椒盐噪声、高斯噪声

(4)RGB颜色变换

7.

过拟合:

正则化、Dropout、扩充数据集、缩减模型、预训练fine-tune、集成学习

欠拟合:

减小正则化系数、增加模型复杂度、增加数据属性

8.

准确率=T/(T+F)

P-R曲线:变化更剧烈,局限于特定的数据集

ROC曲线:TPR=TP/(TP+FN);FPR=FP/(FP+TN),更客观

RMSE比MAPE更易受离群点影响。

距离:满足三角不等式、对称性、正定性

余弦距离:方向上的相对距离

余弦相似度=1-余弦距离

9.训练集和验证集划分:留出法(37分),k折交叉法,自助法(有放回n次抽样,36.8%)

10.参数调优:随机搜索、启发式算法、网格搜索、贝叶斯寻优

SVM

(1) 线性可分的点在分类超平面上的投影一定不可分。

(2) 若不存在两点共位置,比存在一组参数使得SVM模型的训练误差为0,但不一定满足SVM条件。

(3)增加了松弛变量的SVM不一定训练误差为0,但这也不一定是模型追求的目标,因为正则化项也在优化目标之中。

逻辑回归

分类模型,可以多分类,梯度下降的方法进行优化。

决策树

ID3

C4.5

CART

缺失值敏感

🙋‍

形态

多叉树

多叉树

二叉树

功能

  • 16
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值