第一二章 前言和预备知识

第一章 前言

各种机器学习问题

监督学习

监督学习(supervised learning)擅⻓在“给定输⼊特征”的情况下预测标签。
监督学习:回归,分类,标记问题,搜索,推荐系统,序列到序列。
总⽽⾔之,判断回归问题的⼀个很好的经验
法则是,任何有关“多少”的问题很可能就是回归问题。
分类问题的常⻅损失函数被称为交叉熵(cross-entropy)。

无监督学习

数据中不含有“⽬标”的机器学习问题为⽆监督学习(unsupervised learning)。聚类(clustering)问题;主成分分析(principal component analysis)问题;因果关系(causality)和概率图模型(probabilistic graphical models)问题;⽣成对抗性⽹络(generative adversarial networks)

与环境互动

监督学习和无监督学习都是在算法与环境断开后进⾏的,被称为离线学习(offline learning)。

强化学习

如果你对使⽤机器学习开发与环境交互并采取⾏动感兴趣,那么你最终可能会专注于强化学习
(reinforcement learning)。机器人、对话系统、开发视频游戏的⼈⼯智能(AI)。AlphaGo 程序就是一个强化学习的例子。,强化学习的⽬标是产⽣⼀个好的策略(policy)。当环境可被完全观察到时,我们将强化学习问题称为⻢尔可夫决策过程(markov decision process)。当状
态不依赖于之前的操作时,我们称该问题为上下⽂赌博机(contextual bandit problem)。当没有状态,只有
⼀组最初未知回报的可⽤动作时,这个问题就是经典的多臂赌博机(multi-armed bandit problem)。

第二章 预备知识

  • python的id()函数给我们提供了内存中引用对象的确切地址。
  • 标量scalar变量由普通⼩写字⺟表⽰(例如,x、y和z)。
  • 向量通常用粗体小写符号表示;向量的⻓度通常称为向量的维度(dimension)。
  • 粗体、⼤写字⺟来表⽰矩阵(例如,X、Y和Z);
  • 范数norm,L1范数指向量元素绝对值之和,L2范数指向量元素的平方和的平方根,矩阵的Frobenius范数指矩阵各元素的平方和的平方根。
  • 为了知道模块中可以调⽤哪些函数和类,我们调⽤dir函数,以“__”(双下划线)开始和结束的函数(它们是Python中的特殊对象),或以单个“_”(单下划线)开始的函数(它们通常是内部函数);有关如何使⽤给定函数或类的更具体说明,我们可以调⽤help函数。如help(torch.ones);
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值