自己救自己系列,不然要没工作了,我太难了。
我只是个木得感情的搬运机器,以下内容都附有原链接地址,你不想我搬运的话,可以联系我删除好勒。
红色加粗是我见了好多次,感觉经常会考得点。
感觉KNN的面试问题偏少,这里列几个我网上有印象的
1、KNN原理
kNN算法称为K最近邻分类算法。就是需要预测a,就根据最接近a的K的数据的最大特征结果来表示a的类别。
然后在详细讲讲三要素。
2、KNN三要素
1)k值的选取。 (对应问题,k如何选择,优缺点,答案: https://blog.csdn.net/u013270326/article/details/81229738)
2)距离度量的方式。 一般为欧式距离,延伸到问题5。
3)分类决策规则。 分类一般为多数表决,就是哪类多选哪类。回归为选择平均法,即k个样本输出的平均值作为预测输出。
3、KNN优缺点
优点:思想简单,可分类回归;可用于非线性分类; 准确率高,无需对数据做假设,对离群值不敏感
谈到缺点,就会问到维度爆炸的问题。原因一个是特征变多,一个是距离计算。解决方法是降维。
梯度爆炸详见 https://www.jianshu.com/p/73553da824ec
https://blog.csdn.net/u012882134/article/details/78203410
4、KNN与K-means的区别
KNN:一种分类与回归方法,通过计算样本与训练集中距离最近的k个样本投票判断属于哪一类。
K-means:无监督聚类方法,通过不断迭代寻找寻找数据中心点,将数据划分为k簇,并将该点附近的样本划分为同一类。
more: K-means详细讲解及相关问题
5、欧式距离与曼哈顿距离区别
欧式距离:平方差求和再开方
曼哈顿距离:坐标差的绝对值求和
一般用欧式距离而非曼哈顿距离的原因:欧式距离可适用于不同空间,表示不同空间点之间的距离;
曼哈顿距离则只计算水平或垂直距离,有维度的限制
谈到距离,延伸一点。
6、几种距离介绍: https://blog.csdn.net/weixin_41770169/article/details/80659236
7、L1和L2正则化
1)L1正则化,L1范数,L1正则化的模型建叫做Lasso回归
L2正则化,L2范数,L2正则化的模型建叫做Rigde回归
2)L1正则化是指权值向量w中各个元素的绝对值之和,通常表示为||w||_1 。
L2正则化是指权值向量w中各个元素的平方和然后再求平方根(可以看到Ridge回归的L2正则化项有平方符号),通常 表示为||w||_2 。
3)L1正则化可以产生稀疏权值矩阵,即产生一个稀疏模型,可以用于特征选择
L2正则化可以防止模型过拟合(overfitting)一定程度上,L1也可以防止过拟合
更多讲解详见: https://blog.csdn.net/jinping_shi/article/details/52433975
8、最后比较深一点的KD树之类的问题见: https://blog.csdn.net/qq_33011855/article/details/81482511
9、其他问题汇总:
https://blog.csdn.net/A_102/article/details/88948326
https://blog.csdn.net/weixin_44915167/article/details/89315734
更多你需要的
1、机器学习相关准备知识
1.0 感知机算法面试问题汇总
1.1 SVM算法面试问题汇总 (机器学习必考)
1.2 决策树算法面试问题汇总
1.3 逻辑回归(LR)算法面试问题汇总
1.4 KNN算法面试问题汇总
1.5 集成学习(bagging、boosting、GBDT)算法面试问题汇总
1.6 朴素贝叶斯算法面试问题汇总
有帮助的话点个赞吧~