面试
黑桃5200
这个作者很懒,什么都没留下…
展开
-
【机器学习面试题】——循环神经网络(RNN)
文章目录1. 为什么需要RNN?2. 简要介绍RNN的基本结构单层网络结构经典RNN结构RNN的拓展结构3. CNN和RNN的区别 ?4. RNNs和FNNs(前馈神经网络)有什么区别?5. RNNs训练和传统ANN训练异同点?6. 为什么RNN 训练的时候Loss波动很大7. 描述RNN的前向输出流程8. RNN中为什么会出现梯度消失,如何解决?9. LSTM核心思想图解10. LSTMs与GR...原创 2020-03-19 23:42:34 · 5945 阅读 · 0 评论 -
【机器学习面试题】——BERT
1. BERT的基本原理是什么?BERT可以看成一个自编码的语言模型,主要用两个任务训练该模型。MLM(Masked LM)输入一句话的时候,随机地选一些要预测的词,然后用一个特殊的符号**[MASK]来代替它们,之后让模型根据所给的标签去学习**这些地方该填的词NSP(Next Sentence Prediction)在双向语言模型的基础上额外增加了一个句子级别的连续性预测任...原创 2020-03-17 22:58:58 · 2023 阅读 · 0 评论 -
【机器学习面试题】—— 卷积神经网络
文章目录1. 卷积神经网络的结构输入层卷积层激活层池化层全连接层2. 卷积在图像中有什么直观作用3. 卷积层有哪些基本参数?4. 卷积核有什么类型?5. 二维卷积与三维卷积有什么区别?二维卷积三维卷积6. 有哪些池化方法?池化原理池化类型7. 1*1卷积的作用?8. 卷积层和池化层有什么区别?9. 卷积核是否一定越大越好?10. 每层卷积是否只能用一种尺寸的卷积核?11. 怎样才能减少卷积层参数量...原创 2020-03-07 21:58:12 · 10224 阅读 · 0 评论 -
【机器学习面试题】——w2v+tf-idf
Word2Vector1.什么是词嵌入模型?把词映射为实数域向量的技术也叫词嵌⼊2.介绍一下Word2Vec谷歌2013年提出的Word2Vec是目前最常用的词嵌入模型之一。Word2Vec实际是一种浅层的神经网络模型,它有两种网络结构,分别是连续词袋(Continues Bag of Words)和跳字(Skip-gram)模型。3.介绍CBOWCBOW,全称Continuous B...原创 2020-03-05 10:26:46 · 2025 阅读 · 0 评论 -
【机器学习面试题】——Apriori
协同过滤推荐有哪些类型基于用户(user-based)的协同过滤基于用户(user-based)的协同过滤主要考虑的是用户和用户之间的相似度,只要找出相似用户喜欢的物品,并预测目标用户对对应物品的评分,就可以找到评分最高的若干个物品推荐给用户。基于项目(item-based)的协同过滤基于项目(item-based)的协同过滤和基于用户的协同过滤类似,只不过这时我们转向找到物品和物...原创 2020-01-15 10:05:42 · 700 阅读 · 0 评论 -
【机器学习面试题】——XGBoost
文章目录1. RFRFRF和GBDTGBDTGBDT的区别2. 比较LRLRLR和GBDTGBDTGBDT,说说什么情景下GBDTGBDTGBDT不如LRLRLR3. 简单介绍一下XGBoostXGBoostXGBoost4. XGBoostXGBoostXGBoost与GBDTGBDTGBDT有什么不同5. XGBoostXGBoostXGBoost为什么可以并行训练6. XGBoostXGBo...原创 2020-01-09 15:54:49 · 897 阅读 · 0 评论 -
【机器学习面试题】——梯度下降
1. 机器学习中为什么需要梯度下降梯度下降的作用:梯度下降是迭代法的一种,可以用于求解最小二乘问题。在求解损失函数的最小值时,可以通过梯度下降法来一步步的迭代求解,得到最小化的损失函数和模型参数值。如果我们需要求解损失函数的最大值,可通过梯度上升法来迭代。梯度下降法和梯度上升法可相互转换。2. 梯度下降法缺点缺点:靠近极小值时收敛速度减慢。直线搜索时可能会产生一些问题。可能...原创 2020-01-05 19:32:26 · 3377 阅读 · 0 评论 -
【机器学习面试题】——朴素贝叶斯
文章目录1.简述朴素贝叶斯算法原理和工作流程2. 条件概率、先验概率、后验概率、联合概率、贝叶斯公式的概念3.为什么朴素贝叶斯如此“朴素”?4.什么是贝叶斯决策理论?5.朴素贝叶斯算法的前提假设是什么?6.为什么属性独立性假设在实际情况中很难成立,但朴素贝叶斯仍能取得较好的效果?7.什么是朴素贝叶斯中的零概率问题?如何解决?8.朴素贝叶斯中概率计算的下溢问题如何解决?9.当数据的属性是连续型变量时...原创 2020-01-04 21:28:55 · 1946 阅读 · 0 评论 -
【机器学习面试题】——线性回归+逻辑回归
文章目录线性回归1. 简单介绍一下线性回归。2. 线性回归的假设函数是什么形式?3. 线性回归的代价(损失)函数是什么形式?4. 求解线性回归的代价函数的方法有哪些:6. 简述岭回归与Lasso回归以及使用场景。7. 线性回归要求因变量服从正态分布吗?逻辑回归1. 简单介绍一下逻辑回归2. 简单介绍一下Sigmoid函数3. 逻辑回归的损失函数是什么4.可以进行多分类吗?5.逻辑回归的优缺点6. ...原创 2020-01-01 21:35:15 · 2283 阅读 · 1 评论 -
【机器学习面试题】——决策树
文章目录1. 简单介绍决策树算法2. 决策树和条件概率分布的关系?3. 信息增益比相对信息增益有什么好处?4. ID3算法—>C4.5算法—> CART算法5. 决策树的缺失值是怎么处理的6. 决策树的目标函数是什么?7. 决策树怎么处理连续性特征?8. 决策树怎么防止过拟合?9. 如果特征很多,决策树中最后没有用到的特征一定是无用吗?10.决策树的优缺点?11. 树形结构为什么不需要...原创 2019-12-30 10:42:29 · 1134 阅读 · 0 评论 -
【机器学习面试题】——随机森林+AdaBoost
文章目录1. 简单介绍随机森林2. 随机森林的随机性体现在哪里?3. 随机森林为什么不容易过拟合?4. 为什么不用全样本训练?5. 为什么要随机特征?6. RF与 GBDT 的区别?7. RF为什么比Bagging效率高?8. 你已经建了一个有10000棵树的随机森林模型。在得到0.00的训练误差后,你非常高兴。但是,验证错误是34.23。到底是怎么回事?你还没有训练好你的模型吗?9. 如何使用随...原创 2019-12-29 22:13:04 · 3815 阅读 · 1 评论 -
【机器学习面试题】——集成学习
文章目录1. 什么是集成学习算法?2. 集成学习主要有哪几种框架?3. 简单介绍一下bagging,常用bagging算法有哪些?4. 简单介绍一下boosting,常用boosting算法有哪些?5. boosting思想的数学表达式是什么?6. 简单介绍一下stacking,常用stacking算法有哪些?7. 你意识到你的模型受到低偏差和高方差问题的困扰,应该使用哪种算法来解决问题呢?为什么...原创 2019-12-28 21:53:21 · 1784 阅读 · 0 评论 -
手推SVM算法(含SMO证明)
函数间隔γ^=y(wTx+b)=yf(x)\hat{\gamma}=y\left(w^{T} x+b\right)=y f(x)γ^=y(wTx+b)=yf(x)几何间隔γ~=yγ^=γ^∥w∥=y(wTx+b)∥w∥\tilde{\gamma}=y \hat{\gamma}=\frac{\hat{\gamma}}{\|w\|} = \frac{y\left(w^{T} x+b\right...原创 2019-04-10 02:12:08 · 1794 阅读 · 0 评论 -
SVM面试问题汇总
SVM的软间隔硬间隔区别硬间隔:完全分类准确,其损失函数不存在;其损失值为0;只要找出两个异类正中间的那个平面;软间隔:允许一定量的样本分类错误;优化函数包括两个部分,一部分是点到平面的间隔距离,一部分是误分类的损失个数;C是惩罚系数,误分类个数在优化函数中的权重值;权重值越大,误分类的损失惩罚的越厉害。误分类的损失函数可分为hinge损失,指数损失,对率损失。而经常使用的或者说默认的是使用...原创 2019-01-05 10:49:21 · 6269 阅读 · 1 评论 -
GBDT、XGB、Adaboost面试汇总
文章目录1. xgboost相比传统gbdt有何不同?2. xgboost为什么快?3. xgboost如何支持并行?1. xgboost相比传统gbdt有何不同?传统GBDT以CART作为基分类器,xgboost还支持线性分类器,这个时候xgboost相当于带L1和L2正则化项的逻辑斯蒂回归(分类问题)或者线性回归(回归问题)。传统GBDT在优化时只用到一阶导数信息,xgboost...原创 2018-12-27 21:25:24 · 937 阅读 · 0 评论 -
机器学习面试题——逻辑回归
Q:逻辑回归在训练的过程当中,如果有很多的特征高度相关或者说有一个特征重复了很多遍,会造成怎样的影响如果在损失函数最终收敛的情况下,其实就算有很多特征高度相关也不会影响分类器的效果。 但是对特征本身来说的话,假设只有一个特征,在不考虑采样的情况下,你现在将它重复 N 遍。训练以后完以后,数据还是这么多,但是这个特征本身重复了 N 遍,实质上将原来的特征分成了 N 份,每一个特征都是原来特征权重值...原创 2018-12-07 16:16:44 · 1327 阅读 · 0 评论