阅读之前看这里👉:博主是正在进行数据分析师求职的一员,博客记录的是在学习和求职过程中一些总结,也希望和大家一起进步,在记录之时,未免存在很多疏漏和不全,如有问题,还请私聊博主指正。
博客地址:天阑之蓝的博客,学习过程中不免有困难和迷茫,希望大家都能在这学习的过程中肯定自己,超越自己,最终创造自己。
目录
-
- 1.简述方差和偏差的概念
- 2.简述参数模型和非参数模型的区别和优缺点
- 3.简述生成模型和判别模型地概念
- 4.如何解决样本类别不均衡的问题
- 5.L1和L2范数的区别
- 6.机器学习中,为什么经常需要对数据进行归一化?
- 7.请问怎么处理特征向量的缺失值
- 8.xgboost怎么给特征评分?
- 9.给你一个数据集,这个数据集有缺失值,且这些缺失值分布在离中值有1个标准偏差的范围内。百分之多少的数据不会受到影响?为什么?
- 10.给你分配了一个新的项目,是关于帮助食品配送公司节省更多的钱。问题是,公司的送餐队伍没办法准时送餐。结果就是他们的客户很不高兴。 最后为了使客户高兴,他们只好以免餐费了事。哪个机器学习算法能拯救他们?
- 11.你意识到你的模型受到低偏差和高方差问题的困扰。应该使用哪种算法来解决问题呢?为什么?
- 12.给你一个数据集。该数据集包含很多变量,你知道其中一些是高度相关的。 经理要求你用PCA。你会先去掉相关的变量吗?为什么?
- 13.真阳性率和召回有什么关系?写出方程式。
- 14.什么时候Ridge回归优于Lasso回归?
- 15.如何在一个数据集上选择重要的变量?给出解释。
- 16.给你一个缺失值多于30%的数据集?比方说,在50个变量中,有8个变量的缺失值都多于30%。你对此如何处理?
- 17.买了这个的客户,也买了......”亚马逊的建议是哪种算法的结果?
- 18.你怎么理解第一类和第二类错误?
1.简述方差和偏差的概念
在进行模型训练的时候,模型的误差是由偏差和方差相加而成的。
偏差(bias):反映了模型在训练集样本上的期望输出与真实结果之间的差距,即模型本身的精确度,反映的是模型本身的拟合能力。偏差过高说明模型存在欠拟合现象,说明模型过于简单,需要提高模型的复杂度。
方差(variance): 反映了模型在不同的训练集下得到的结果与真实结果之间的误差的波动情况,即模型的稳定性。模型过于复杂时,会学习模型中的噪声,造成过拟合现象。
2.简述参数模型和非参数模型的区别和优缺点
参数模型有:线性回归模型、逻辑回归、朴素贝叶斯等。
- 优点:
具有很强的可解释性、模型学习和训练速度相对快速,对数据量的要求比较低。 - 缺点
需要对目标函数做出假设,对于复杂问题,无法用参数模型得到很好的训练。参数模型的复杂度偏低,容易产生欠拟合现象。
非参数模型,对目标函数的形式不做过多的假设,学习算法可以自由地从训练数据中学习任意地函数。
常见地非参数模型有:SVM模型,决策树模型,随机森林等
- 优点:
数据量大时,非参数模型可以逼近任意复杂地真实模型,因此在数据量大,逻辑复杂地问题中效果好于参数模型。 - 缺点
很多超参数需要选择,模型复杂,可解释性弱,计算量大。
3.简述生成模型和判别模型地概念
生成模型由数据学习联合概率分布 P ( X , Y ) P(X,Y) P(X,Y),然后求出条件概率密度分布 P