第一章 前言
各种机器学习问题
监督学习
监督学习(supervised learning)擅⻓在“给定输⼊特征”的情况下预测标签。
监督学习:回归,分类,标记问题,搜索,推荐系统,序列到序列。
总⽽⾔之,判断回归问题的⼀个很好的经验
法则是,任何有关“多少”的问题很可能就是回归问题。
分类问题的常⻅损失函数被称为交叉熵(cross-entropy)。
无监督学习
数据中不含有“⽬标”的机器学习问题为⽆监督学习(unsupervised learning)。聚类(clustering)问题;主成分分析(principal component analysis)问题;因果关系(causality)和概率图模型(probabilistic graphical models)问题;⽣成对抗性⽹络(generative adversarial networks)
与环境互动
监督学习和无监督学习都是在算法与环境断开后进⾏的,被称为离线学习(offline learning)。
强化学习
如果你对使⽤机器学习开发与环境交互并采取⾏动感兴趣,那么你最终可能会专注于强化学习
(reinforcement learning)。机器人、对话系统、开发视频游戏的⼈⼯智能(AI)。AlphaGo 程序就是一个强化学习的例子。,强化学习的⽬标是产⽣⼀个好的策略(policy)。当环境可被完全观察到时,我们将强化学习问题称为⻢尔可夫决策过程(markov decision process)。当状
态不依赖于之前的操作时,我们称该问题为上下⽂赌博机(contextual bandit problem)。当没有状态,只有
⼀组最初未知回报的可⽤动作时,这个问题就是经典的多臂赌博机(multi-armed bandit problem)。
第二章 预备知识
- python的id()函数给我们提供了内存中引用对象的确切地址。
- 标量scalar变量由普通⼩写字⺟表⽰(例如,x、y和z)。
- 向量通常用粗体小写符号表示;向量的⻓度通常称为向量的维度(dimension)。
- 粗体、⼤写字⺟来表⽰矩阵(例如,X、Y和Z);
- 范数norm,L1范数指向量元素绝对值之和,L2范数指向量元素的平方和的平方根,矩阵的Frobenius范数指矩阵各元素的平方和的平方根。
- 为了知道模块中可以调⽤哪些函数和类,我们调⽤dir函数,以“__”(双下划线)开始和结束的函数(它们是Python中的特殊对象),或以单个“_”(单下划线)开始的函数(它们通常是内部函数);有关如何使⽤给定函数或类的更具体说明,我们可以调⽤help函数。如help(torch.ones);