1.你会怎么定义机器学习?
利用计算机,从大量现有数据中学习,建立模型,以对某一现象进行更好的描述、预测。
2.机器学习在哪些问题上表现突出?
传统手段无法解决的、需要大量手动调整、规则极其复杂的问题;
3.什么是被标记的训练数据集?
监督学习中提供给算法的包含所需解决方案的,属于一定类别或存在一定特征的训练数据。
4.常见的两种监督式学习任务是?
分类任务与回归任务。
算法包括:K-临近算法、线性回归、逻辑回归、支持向量机、决策树和随机森林与神经网络。
5.四种常见的无监督式学习任务?
即训练数据未被标记,聚类、可视化、降维、关联规则学习。
算法包括:聚类算法(K-平均算法、分层聚类分析、最大期望算法)、可视化和降维(主成分分析、核主成分分析、局部线性嵌入、t-分布随机临近嵌入)、关联规则学习(Apriori、Eclat)
6.机器人行走该用什么机器学习算法?
强化学习(奖惩)。
7.顾客分组?
聚类算法、分类算法。
8.垃圾邮件检测?
监督学习。
9.在线学习系统?
循序渐进地给系统提供训练数据,逐步累积学习成果(增量学习)。
10.核外学习?
处理计算机内存无法应对的大量数据,将数据分割,使用在线学习。
11.什么类型的算法依赖相似度做预测?
基于实例的学习。
12.模型参数与学习算法的超参数之间有什么区别?
超参数是学习算法(而非模型)的参数,它不受算法本身影响,需在训练前设定并保持固定。
13.基于模型的学习算法搜索的是什么?最常用的策略是?如何做出预测?
最优的模型参数值;适应度函数、成本函数衡量模型好坏;学习数据、选择模型、使用训练数据训练、将实例特征提供给得到的预测函数对新实例进行预测。
14.机器学习的四个主要挑战?
训练数据量不足、训练数据不具有代表性、特征不具信息量、质量差的数据、训练数据过度拟合与不足。
15.模型在训练数据上表现很好,但应用到新实例上的泛化结果却很糟?三种可能的解决方案?
过拟合,简化模型、收集更多数据、减少训练数据噪声。
16.什么是测试集?为什么使用测试集?
为了解模型对新场景的泛化能力,将数据分割为训练集与测试集两部分,用后者评估、测试模型,估算在新实例上的泛化误差。
17.验证集的目的?
用以选择最好的模型和对应的超参数。
18.使用测试集调整超参数会出现什么问题?
过拟合。
19.什么是交叉验证?为何比验证集更好?
为避免验证集浪费太多训练数据,将训练集分为若干互补子集,无需单独的验证集。