常见的面试问题———机器学习篇(持续更新)

  1. SVM 和 LR 的区别和联系  当面试官问LR与SVM的问题时,他们会问些什么_Matrix_cc的博客-CSDN博客
  2. SVM推导,及使用对偶的原因,SVM 核函数选择 SVM 高频面试题 - 知乎
  3. svm 对缺失数据敏感吗,为什么,决策树呢。
  4. 决策树是如何处理缺失数据的。决策树是如何处理不完整数据的? - 知乎
  5. svm 如何处理多分类
  6. 为什么 svm 采用最大间隔。答:鲁棒,对未知数据泛化更好
  7. svm 选取样本问题,如何增加样本点。
  8. 什么时候选择 svm 算法,什么时候选择决策树算法。答: svm 更适合处理特征多的样本。 而决策树处理特征多的样本时容易发生过拟合。
  9.  贝叶斯是线性分类器吗
  10. LR 可不可以做非线性分类,如何理解线性模型中的线性:LR本身是个线性模型,虽然加上了sigmoid函数,但是它的分类平面是线性的,可以做非线性分类,需要做一个非线性映射 逻辑斯蒂回归能否解决非线性分类问题? - 辛俊波的回答 - 知乎
  11. 逻辑斯特回归是分类模型,为什么叫回归:
  12. LR可不可以用MSE作为损失函数?为什么 不可以,原因
  13. LR怎么解决过拟合?1、减少特征的数量:1)手动选择需要保留的数据   2) 使用模型选择的算法  2、正规化:保留所有特征,但是减小参数θ 的大小。
  14. 比较 LR 和 GBDT,什么情景下 GBDT 不如 LR 
  15. LR的特征为什么要离散化?1、计算简单  2、简化模型  3、增强模型的泛化能力,不易受噪声的影响
  16. 1. 比较 LR 和 GBDT:(1) LR 是一种线性模型,而 GBDT 是一种非线性的树模型,因此通常为了增强模型的非线性表达能力,使用 LR 模型之前会有非常繁重的特征工程任务;(2) LR 是单模型,而 GBDT 是集成模型,通常来说,在数据低噪的情况下,GBDT 的效果都会优于 LR;(3) LR 采用梯度下降方法进行训练,需要对特征进行归一化操作,而 GBDT 在训练的过程中基于 gini 系数选择特征,计算最优的特征值切分点,可以不用做特征归一化。
  17. 2.GBDT 不如 LR 的地方:
  18. 一方面,当需要对模型进行解释的时候,GBDT 显然会比 LR 更加 “黑盒”,因为我们不可能去解释每一棵树。相比之下。LR 的特征权重能够很直观地反映出特征对不同类样本的贡献程度,也正因为如此好理解,很多时候我们可以根据 LR 模型得到的分析结论做出更有说服力的营销和运营策略;另一方面,LR 模型的大规模并行训练已经非常成熟,模型迭代速度很快,业务人员可以很快得到模型的反馈,并对模型进行针对性的修正。而 GBDT 这样的串行集成方式让它的并行十分困难,在大数据规模下训练速度十分缓慢。
  19. bagging 和 boosting 的区别  答案
  20. 偏差小,方差大说明什么?说明是过拟合,需要降低模型复杂度。反之呢?欠拟合,需要增加模型复杂度。
  21. 有哪些算法需要进行归一化?机器学习算法在什么情况下需要归一化?_Running_you-CSDN博客_什么时候需要归一化
  22. 决策树,GBDT,随机森林的区别
  23. 介绍一下 xgboost,xgboost 和 GBDT 的区别,优缺点  XGBoost 原理 及 常见面试题 - 知乎机器学习算法中 GBDT 和 XGBOOST 的区别有哪些? - 知乎
  24. XGBoost是怎么选择最佳分裂点的?决策树和GBDT呢?1)XGBoost是使用贪心算法来分裂,两个 for 循环,第一个 for 遍历所有特征,第二个 for 找出最佳的特征值作为分裂点选分裂点的依据 score 为分裂前后损失函数的减少量,根据每次分裂后产生的增益,最终选择增益最大的那个特征的特征值作为最佳分裂点。分裂后两侧的值相加或减去分裂前的值  2)决策树是使用Gini系数来进行划分。3)GBDT是使用回归树,回归树的划分方法是对于任意划分特征 A,对应的任意划分点 s 两边划分成的数据集 D1 和 D2,求出使 D1 和 D2 各自集合的平方损失最小,同时 D1 和 D2 的平方损失之和最小所对应的特征和特征值划分点。
  25. XGBoost怎么处理缺失值?1)在某列特征上寻找分裂节点时,不会对缺失的样本进行遍历,只会对非缺失样本上的特征值进行遍历,这样减少了为稀疏离散特征寻找分裂节点的时间开销。2)另外,为了保证完备性,对于含有缺失值的样本,会分别把它分配到左叶子节点和右叶子节点,然后再选择分裂后增益最大的那个方向,作为预测时特征值缺失样本的默认分支方向。3)如果训练集中没有缺失值,但是测试集中有,那么默认将缺失值划分到右叶子节点方向。
  26. XGBoost怎么并行的?树的生成是并行的吗?
  27. Xgboost的特征重要性是怎么做的?
  28. GBDT为什么使用回归树,为啥不用分类树? 原因是 GBDT 每次拟合的都是梯度值(连续值),因此要使用回归树
  29. 如何判断分类器的好坏(分类器的评价指标)
  30. 介绍 Kmeans 算法,Kmeans是否收敛?为什么能收敛?K-Means 优化的目标是每个样本离其所属类中心点的距离平方和,,在每一步迭代过程中分为两个步骤:更新中心点以及更新样本的所属类。这两个步骤都会使目标函数减小。因此一定会收敛。也可以把 K-Means 看做 EM 算法的特例,EM 算法是可以保证收敛的。
  31. 样本不均衡的处理方法:权重调整,采样(过采样和欠采样),SMOTE方法(合成新的少数类样本,合成的策略是对每个少数类样本a,从它的最近邻中随机选一个样本b,然后在a、b之间的连线上随机选一点作为新合成的少数类样本,过采样:SMOTE算法_YJ语的博客-CSDN博客_smote算法),对样本不均衡不敏感的指标(F1),focal_loss: focal loss 的两个性质算是核心,其实就是用一个合适的函数去度量难分类和易分类样本对总的损失的贡献。 增加一个调节因子降低易分类样本权重,聚焦于困难样本的训练
  32. EM 算法
  33. 精确率,准确率,召回率和ROC、AUC  准确率、精确率、召回率、F1值、ROC/AUC整理笔记_学习容易上瘾-CSDN博客_准确率 召回率
  34. PR曲线 【机器学习】一文读懂分类算法常用评价指标 | 郭耀华's Blog
  35. AUC原理和计算方法 AUC的计算方法_SCUT_Sam-CSDN博客_auc计算公式
  36. AUC的物理意义:任取一对(正、负)样本,正样本的 score 大于负样本的 score 的概率,代码实现AUC  AUC代码实现
  37. 贝叶斯和朴素贝叶斯的区别
  38. 分类树和回归树的区别
  39. 决策树的原理
  40. 什么是生产模型和判别模型
  41. PCA和LDA两者的区别   机器学习(十六)— LDA和PCA降维 - 深度机器学习 - 博客园
  42. 目标函数,损失函数,代价函数之间的区别?
  43. 目标函数是最终需要优化的函数,其中包括经验损失和结构损失。
  44. obj=loss+Ω
  45. 经验损失 (loss) 就是传说中的损失函数或者代价函数。结构损失 (Ω) 就是正则项之类的来控制模型复杂程度的函数。
  46. 什么算法需要归一化,什么不用?归一化的作用是什么?面试题总结(2)——机器学习哪些算法需要归一化_u014535528的博客-CSDN博客
  47. 多分类和多标签的区别,多分类和多标签的损失函数一般怎么选择?
  48. KL散度与交叉熵的区别  KL散度与交叉熵区别与联系_Dby_freedom的博客-CSDN博客_kl散度和交叉熵的区别
  49. 为什么要做特征归一化/标准化?为什么要做特征归一化/标准化? - shine-lee - 博客园
  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
### 回答1: 阿里云天池大赛是一个非常有名的数据科学竞赛平台,其中机器学习竞赛是其中的一个重要组成部分。在这个竞赛中,参赛者需要使用机器学习算法来解决各种各样的问题,例如图像识别、自然语言处理、推荐系统等等。 机器学习竞赛的解题过程通常包括以下几个步骤: 1. 数据预处理:参赛者需要对提供的数据进行清洗、特征提取、数据转换等操作,以便于后续的建模和训练。 2. 模型选择:参赛者需要选择适合当前问题机器学习算法,并对其进行调参和优化。 3. 模型训练:参赛者需要使用训练数据对模型进行训练,并对训练过程进行监控和调整。 4. 模型评估:参赛者需要使用测试数据对模型进行评估,以确定其在实际应用中的性能表现。 5. 结果提交:参赛者需要将最终的模型结果提交到竞赛平台上进行评估和排名。 在机器学习竞赛中,成功的关键在于对问题的深入理解和对机器学习算法的熟练掌握。同时,参赛者还需要具备良好的团队合作能力和沟通能力,以便于在竞赛中取得更好的成绩。 ### 回答2: 阿里云天池大赛是一个非常受欢迎的机器学习竞赛平台,它汇集了大量来自世界各地的数据科学家,分享了一系列有趣的竞赛和可用的数据集,供参赛选手使用。机器学习中,我们将解析一些常见的阿里云天池大赛题目,让大家对机器学习竞赛有更深入的了解。 一、赛题选取 阿里云天池大赛的赛题通常与商业、医疗等复杂领域相关,选择数据集时要了解行业背景和数据质量,以准确地判断模型的准确性和适用性。此外,在选择赛题时,还要考虑与参赛选手一起合作的可能性,以及他们可能使用的算法和技术。因此,为了成功解决赛题,参赛者应当仔细研究题目的背景、数据、分析目标等内容,有助于更好地理解问题及其解决方案。 二、数据清洗 参赛者在使用数据时,需要对其进行实质性的预处理和清洗工作,以减少不准确的数据对结果的影响。预处理和清洗包括基本的数据处理,例如缺失值、异常值和重复值的处理,还需要利用可视化和探索性数据分析等技术来检查数据的分布情况、相互关系和异常值等问题。 三、特征选择 在构建模型之前,参赛选手必须确定哪些特征会对问题的解决产生实际影响。这个过程称为特征选择,它旨在通过保留最相关的特征来减少模型复杂性,提高准确性,并且还有助于减少数据集的维数。特征选择包括基于统计学和机器学习的算法,同时应该考虑特征的相关性和重要性。 四、建模和评估 参赛者在解决问题时,需要考虑使用何种算法,以及如何构建对应的模型。此外,还需在不同的算法和模型之间进行比较,并选择最优模型。最后,应该针对模型进行评估,以确保各种重要性能指标(例如准确性,召回率,精确度等)都得到最佳表现。 总的来说,机器学习是一种复杂而令人兴奋的技术,参赛者要考虑数据质量、数据清洗、特征选择、建模和评估等诸多因素。通过参加阿里云天池大赛,大家可以不断学习和练习,不仅提升自己的技能,同时还有机会获得丰厚的奖励。 ### 回答3: 阿里云天池大赛是一个集数据竞赛、人才选拔、行业交流、技术分享、产学研合作等多种功能于一体的大型平台。其中,机器学习的赛题挑战包括了各种典型机器学习场景,旨在挖掘数据中价值,提高数据应用和解决实际问题的能力。 在机器学习的赛题中,常见的任务包括分类、回归、聚类、推荐等,其中分类问题是最常见的任务之一。分类可以分为二分类、多分类、超大规模分类等多个子类型。对于分类问题,大家需要学习分类算法,如KNN、NB、SVM、LR、GBDT、XGBoost等,并熟悉如何调参等技巧。 回归问题主要是根据给定的样本数据,预测一个连续的数值。回归问题旨在找到独立变量(X)和连续依赖变量(Y)之间的关系,以便使用该模型来预测连续依赖变量的值。对于回归问题,大家需要掌握线性回归、岭回归、Lasso回归、ElasticNet回归等算法。 聚类问题是将相似的数据划分到同一类别中,相似度较高,不同类别之间相似度较低。对于聚类问题,大家需要学习如何使用K-means、DBSCAN、Hierarchical聚类算法。 推荐问题是根据用户的行为习惯,预测用户的需求,以便将相应的内容推荐给用户。推荐问题的数据通常包括用户的行为、物品的属性和用户的评分。推荐问题常用的算法包括CF、ALS、LFM等。除此之外,还有深度学习在图像识别、语音识别、自然语言处理、推荐、游戏AI等方面具有广泛的应用,如CNN、RNN、LSTM、GAN等。 总之,机器学习的赛题挑战涉及到各种典型机器学习算法和应用场景,需要大家掌握基础理论和实践技巧,并多参加实战项目和比赛练习,不断提升自己的能力和水平。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值