每日必会题
1 简单描述下机器学习的工作流程?并谈谈每一步的具体内容?
答:机器学习的工作流程是
1 获取数据
2 数据基本处理
3 特征工程
4 模型训练
5 模型评估
每一步的内容
1 获取数据:搜集与完成机器学习任务相关的数据集,比方说,要预测房价,那就要收集房屋面积,朝向,临街与否等影响房价的数据集
2 数据基本处理:数据集中异常值,缺失值的处理等
3 特征工程,利用专业的知识背景,提取数据中特征,然后利用提取的特征对机器学习模型发挥最好的效果
4 模型训练:利用提取的特征,选择合适的算法对模型进行训练,算法分类:有监督学习,无监督学习,半监督学习,强化学习.
5 模型评估: 对模型的效果进行评估,评估效果好上线服务,评估效果不好则重复以上步骤.
2 人工智能和机器学习、深度学习三者之间的关系
答:机器学习是人工智能的一个实现途径, 深度学习是机器学习的一个方法发展而来
3 人工智能发展必备三要素是什么?
- 数据
- 算法
- 算力
4 CPU、GPU和TPU分别是什么?
答:CPU( Central Processing Unit, 中央处理器)就是机器的“大脑”,也是布局谋略、发号施令、控制行动的“总司令官”。
GPU的构成相对简单,有数量众多的计算单元和超长的流水线,特别适合处理大量的类型统一的数据。GPU无法单独工作,必须由CPU进行控制调用才能工作。CPU可单独作用,处理复杂的逻辑运算和不同的数据类型,但当需要大量的处理类型统一的数据时,则可调用GPU进行并行计算。虽然GPU是为了图像处理而生的,但是它在结构上并没有专门为图像服务的部件,只是对CPU的结构进行了优化与调整,所以现在GPU不仅可以在图像处理领域大显身手,它还被用来科学计算、密码破解、数值分析,海量数据处理(排序,Map-Reduce等),金融分析等需要大规模并行计算的领域
TPU是一款为机器学习而定制的芯片,经过了专门深度机器学习方面的训练,它有更高效能(每瓦计算能力)。大致上,相对于现在的处理器有7年的领先优势,宽容度更高,每秒在芯片中可以挤出更多的操作时间,使用更复杂和强大的机器学习模型,将之更快的部署,用户也会更加迅速地获得更智能的结果。
5 请简述一下人工智能的主要分支。
- 计算机视觉
- 语音识别
- 文本挖掘/分类
- 机器翻译
- 机器人
每日练习题
1 简述机器学习算法分类并简单介绍一下各类算法
答:按照学习方式分类可分为: 监督学习, 无监督学习, 半监督学习, 强化学习
- 监督学习: 输入数据是由输入特征值和目标值所组成
- 回归: 函数的输出是一个连续的值
- 分类: 函数的输出是有限个离散值
- 无监督学习: 输入数据是由输入特征值组成, 没有目标值
- 聚类: 根据样本间的相似性对样本集进行分类
- 半监督学习: 即训练集同时包含有标记样本数据和未标记样本数据
- 强化学习: 智能体不断与环境进行交互,通过试错的方式来获得最佳策略;主要包含四个元素: Agent(智能体), 环境(Environment), 行动(Action), 奖励(reward)
2 什么是独立同分布,举例说明什么是独立、同分布、独立同分布?
答:如果变量序列或者其他随机变量有相同的概率分布,并且互相独立,那么这些随机变量是独立同分布。在西瓜书中解释是:输入空间中的所有样本服从一个隐含未知的分布,训练数据所有样本都是独立地从这个分布上采样而得。
3 什么是过拟合,什么是欠拟合?
答:欠拟合(under-fitting):模型学习的太过粗糙,连训练集中的样本数据特征关系都没有学出来。过拟合(over-fitting):所建的机器学习模型或者是深度学习模型在训练样本中表现得过于优越,导致在测试数据集中表现不佳。
4 为什么在机器学习的工作流程中需要模型评估?
答:模型评估是模型开发过程不可或缺的一部分。它有助于发现表达数据的最佳模型和所选模型将来工作的性能如何。
5 你是怎么理解图灵测试的,用自己的话说一说。
答:测试者与被测试者(一个人和一台机器)隔开的情况下,通过一些装置(如键盘)向被测试者随意提问。
多次测试(一般为5min之内),如果有超过30%的测试者不能确定被测试者是人还是机器,那么这台机器就通过了测试,并被认为具有人类智能。
企业面试题
有监督学习和无监督学习的区别?
- 有监督学习:对具有标记的训练样本进行学习,以尽可能对训练样本集外的数据进行分类预测。
- 无监督学习:对未标记的样本进行训练学习,比发现这些样本中的结构知识。