机器学习实战1-概览

1.你会怎么定义机器学习?

利用计算机,从大量现有数据中学习,建立模型,以对某一现象进行更好的描述、预测。

2.机器学习在哪些问题上表现突出?

传统手段无法解决的、需要大量手动调整、规则极其复杂的问题;

3.什么是被标记的训练数据集?

监督学习中提供给算法的包含所需解决方案的,属于一定类别或存在一定特征的训练数据。

4.常见的两种监督式学习任务是?

分类任务与回归任务。

算法包括:K-临近算法、线性回归、逻辑回归、支持向量机、决策树和随机森林与神经网络。

5.四种常见的无监督式学习任务?

即训练数据未被标记,聚类、可视化、降维、关联规则学习。

算法包括:聚类算法(K-平均算法、分层聚类分析、最大期望算法)、可视化和降维(主成分分析、核主成分分析、局部线性嵌入、t-分布随机临近嵌入)、关联规则学习(Apriori、Eclat)

6.机器人行走该用什么机器学习算法?

强化学习(奖惩)。

7.顾客分组?

聚类算法、分类算法。

8.垃圾邮件检测?

监督学习。

9.在线学习系统?

循序渐进地给系统提供训练数据,逐步累积学习成果(增量学习)。

10.核外学习?

处理计算机内存无法应对的大量数据,将数据分割,使用在线学习。

11.什么类型的算法依赖相似度做预测?

基于实例的学习。

12.模型参数与学习算法的超参数之间有什么区别?

超参数是学习算法(而非模型)的参数,它不受算法本身影响,需在训练前设定并保持固定。

13.基于模型的学习算法搜索的是什么?最常用的策略是?如何做出预测?

最优的模型参数值;适应度函数、成本函数衡量模型好坏;学习数据、选择模型、使用训练数据训练、将实例特征提供给得到的预测函数对新实例进行预测。

14.机器学习的四个主要挑战?

训练数据量不足、训练数据不具有代表性、特征不具信息量、质量差的数据、训练数据过度拟合与不足。

15.模型在训练数据上表现很好,但应用到新实例上的泛化结果却很糟?三种可能的解决方案?

过拟合,简化模型、收集更多数据、减少训练数据噪声。

16.什么是测试集?为什么使用测试集?

为了解模型对新场景的泛化能力,将数据分割为训练集与测试集两部分,用后者评估、测试模型,估算在新实例上的泛化误差。

17.验证集的目的?

用以选择最好的模型和对应的超参数。

18.使用测试集调整超参数会出现什么问题?

过拟合。

19.什么是交叉验证?为何比验证集更好?

为避免验证集浪费太多训练数据,将训练集分为若干互补子集,无需单独的验证集。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值