三者区别
人工智能(Artificial Intelligence)
机器学习(Machine Learning):一种实现人工智能的方法。
深度学习(Deep Learning):一种实现机器学习的技术。
机器学习——按照任务是否需要和环境交互分为:
- 监督学习——按照训练样本是否存在标签分为:
1.1 有监督学习
1.2 无监督学习
1.3 半监督学习 - 强化学习
1.有监督学习
按照训练样本的固有属性,可以分为分类(训练样本离散,目标标签是类别类型)和回归(训练样本连续,目标标签是数值类型)。
典型算法包括:
- 线性回归
- 逻辑回归
- 支持向量机(SVM)
- 朴素贝叶斯分类器
- 决策树
- 集成方法
- 人工神经网络
- 深度神经网络
关于神经网络和深度学习的概念,可以先这样理解:神经网络和深度学习的概念其实差不多,互相交叉。
有监督学习特性:
1 至少需要一个输入特征和标签来训练模型,机器能够从训练集中进行学习的根本原因在于基本假设,即输入特征中的一些数据独立或联合起来会对标签产生影响。
- 训练集——高中三年的作业题
- 验证集——高考模拟题
- 测试集——高考题
2 可以评估模型的性能,基于模型的分类(分类、回归、时序),可以应用评估指标并且可以测量性能结果(因为我们已经知道测试集的正确标签了)。
2.无监督学习
基于没有任何正确答案得到数据来训练模型,机器尝试找出数据中的隐藏模式和有用信号,以便后续应用。
典型算法包括:
- 聚类算法(K均值、层次聚类)
- 维度降低技术
- 主题模型
- 关联规则挖掘
典型应用包括:
- 聚类
- 异常检测
- 关联关系
无监督学习与有监督学习相比:
1 不需要标注训练集。
2 不提供预测。
3 性能无法估算(因为没有标签或正确答案)。
3.半监督学习
实例:
网络上存在大量品牌图片,我们手动标注一部分,然后基于这些标注图片来训练模型,之后,使用模型预测来标注其余图片。
优点:
- 模型是基于较大数据集训练来的,模型健壮性较好。
- 因为无须人工大量标注,可以节省大量时间和精力。
缺点:
- 伪标注难以提供较高的性能。
4.强化学习
监督学习与强化学习的主要区别在于是否需要与环境进行交互,监督学习需要数据来训练模型,而强化学习依托奖励系统运行,通过反馈机制最大化奖励。
典型应用包括:
- 自动驾驶汽车
- 能源消耗的优化
- 游戏领域
- 下棋竞技(阿尔法狗)
- 构建推荐系统
热门应用
1.CV
2.NLP
3.BI(推荐算法属于BI)
两个PDF要好好学。
名词解释
1.特征、标签和观察
-
特征——也叫属性,例如年龄、性别等列。
-
标签——也叫目标,就是模型试图为未知数据进行预测的结果列。
-
观察——一条完整的具有特征和标签的记录就是一个观察。
2.特征工程
对数据原有的特征和列进行预处理、构造和拆分,对数据原有的特征进行重构,便于模型学习,可以通过引入新特性来提升模型性能,因为garbage in,garbage out。
3.超参数(hyperparameter)
在开始学习过程之前设置值的参数,而不是通过训练得到的参数数据。通常情况下,需要对超参数进行优化,给学习机选择一组最优超参数,以提高学习的性能和效果。
超参数可以理解为一种需要提前设置的经验值,其也是一种参数,它具有参数的特性,比如未知,也就是它不是一个已知常量。一种手工可配置的设置,需要为它根据已有或现有的经验指定“正确”的值,也就是人为为它设定一个值,它不是通过系统学习得到的,在支持向量机(SVM)和深度学习(Deep Learning)中应用较多。
超参数的一些示例:
- 树的数量或树的深度
- 矩阵分解中潜在因素的数量
- 学习率(多种模式)
- 深层神经网络隐藏层数
- k均值聚类中的簇数