李沐深度学习引言笔记

引言


符号含义

  • 点乘与叉乘
  • 标量、向量、张量

张量(tensor),在机器学习领域指代张量类(MXNet中为ndarray,在PyTorch和TensorFlow中为Tensor)与numpy的ndarray相似,但比numpy多的功能是:支持GPU加速计算。支持自动微分。无

  • 指示函数

参考知乎文章

机器学习的关键组件

  • 用于学习的数据data
  • 转换数据的模型model
  • 衡量模型优劣的目标函数objective function,有时被称为损失函数(loss function),或(cost function)
  • 改进模型的调参优化算法(algorithm)

专业术语

  • 样本(example, sample)= 数据点(data point)= 数据实例(data instance):数据由一个个样本构成
  • 独立同分布(independently and identically distributed, i.i.d.):一般样本会遵循的性质
  • 每个样本由一组称为特征(features),或协变量(covariates)的属性组成
  • 要分析的属性,称为标签(label),或目标(target)
  • 当每个样本的特征类别数量都是相同的时候,其特征向量是固定长度的,这个长度被称为数据的维数(dimensionality)
  • 训练集(training set)与测试集(test dataset)
  • 过拟合(overfitting):一个模型在训练集上表现良好,但不能推广到测试集
  • 深度学习中,大多流行的优化算法通常基于一种基本方法–梯度下降(gradient descent)

各种机器学习问题概览

1.监督学习(supervised learning)

  • 从已知大量数据样本中随机选取一个子集,为每个样本获取真实标签。有时,这些样本已有标签(例如,患者是否在下一年内康复?);有时,这些样本可能需要被人工标记(例如,图像分类)。这些输入和相应的标签一起构成了训练数据集;
  • 选择有监督的学习算法,它将训练数据集作为输入,并输出一个“已完成学习的模型”;
  • 将之前没有见过的样本特征放到这个“已完成学习的模型”中,使用模型的输出作为相应标签的预测。

1.1 回归(regression)
1.2 分类(classification)
1.3 多标签分类(multi‐label classification)

学习预测不相互排斥的类别的问题

1.4 搜索
1.5 推荐系统
1.6 序列学习

模型记住输入的内容。语音识别,翻译,文字转语音等

2、无监督学习(unsupervised learning)

//数据中不含有目标/标签//

2.1 聚类(clustering)问题

没有标签的情况下进行分类

2.2 主成分分析(principal component analysis)问题
2.3 因果关系(causality)和概率图模型(probabilistic graphical models)问题

能否根据经验数据发现特征间关系

2.4 生成对抗性网络(generative adversarial networks)

合成数据的方法,生成器网络通过学习训练数据的分布,生成新的数据。而判别器网络则尝试区分生成器生成的数据和真实的训练数据。在训练过程中,两个网络相互对抗,生成器网络试图欺骗判别器网络,使其无法准确地区分生成的数据和真实的训练数据,而判别器网络则试图正确地识别哪些数据是真实的。通过不断地迭代训练,生成器网络逐渐学习到如何生成更逼真的数据,而判别器网络则逐渐变得更加准确。最终,生成器网络可以生成与训练数据相似的新数据,这些数据可以用于图像生成、视频生成、自然语言处理等领域。

3、强化学习

//与环境互动//

“在强化学习问题中,智能体(agent)在一系列的时间步骤上与环境交互。在每个特定时间点,智能体从环境接收一些观察(observation),并且必须选择一个动作(action),然后通过某种机制(有时称为执行器)将其传输回环境,最后智能体从环境中获得奖励(reward)。此后新一轮循环开始,智能体接收后续观察,并选择后续操作,依此类推。请注意,强化学习的目标是产生一个好的策略(policy)。强化学习智能体选择的“动作”受策略控制,即一个从环境观察映射到行动的功能。”

监督学习问题其实可以转化为强化学习问题。

  • 当环境可被完全观察到时,强化学习问题被称为马尔可夫决策过程(markov decision process)。
  • 当状态不依赖于之前的操作时,我们称该问题为上下文赌博机(contextual bandit problem)。
  • 当没有状态,只有一组最初未知回报的可用动作时,这个问题就是经典的多臂赌博机(multi‐armed bandit problem)
  • 11
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值