第一二章前言和预备知识-CSDN博客

本文链接：https://blog.csdn.net/m0_49040734/article/details/127322796

第一章前言

各种机器学习问题

监督学习

监督学习（supervised learning）擅⻓在“给定输⼊特征”的情况下预测标签。
监督学习：回归，分类，标记问题，搜索，推荐系统，序列到序列。
总⽽⾔之，判断回归问题的⼀个很好的经验
法则是，任何有关“多少”的问题很可能就是回归问题。
分类问题的常⻅损失函数被称为交叉熵（cross-entropy）。

无监督学习

数据中不含有“⽬标”的机器学习问题为⽆监督学习（unsupervised learning）。聚类（clustering）问题；主成分分析（principal component analysis）问题；因果关系（causality）和概率图模型（probabilistic graphical models）问题；⽣成对抗性⽹络（generative adversarial networks）

与环境互动

监督学习和无监督学习都是在算法与环境断开后进⾏的，被称为离线学习（offline learning）。

强化学习

如果你对使⽤机器学习开发与环境交互并采取⾏动感兴趣，那么你最终可能会专注于强化学习
（reinforcement learning）。机器人、对话系统、开发视频游戏的⼈⼯智能（AI）。AlphaGo 程序就是一个强化学习的例子。，强化学习的⽬标是产⽣⼀个好的策略（policy）。当环境可被完全观察到时，我们将强化学习问题称为⻢尔可夫决策过程（markov decision process）。当状
态不依赖于之前的操作时，我们称该问题为上下⽂赌博机（contextual bandit problem）。当没有状态，只有
⼀组最初未知回报的可⽤动作时，这个问题就是经典的多臂赌博机（multi-armed bandit problem）。

第二章预备知识

python的id()函数给我们提供了内存中引用对象的确切地址。
标量scalar变量由普通⼩写字⺟表⽰（例如，x、y和z）。
向量通常用粗体小写符号表示；向量的⻓度通常称为向量的维度（dimension）。
粗体、⼤写字⺟来表⽰矩阵（例如，X、Y和Z）；
范数norm，L1范数指向量元素绝对值之和，L2范数指向量元素的平方和的平方根，矩阵的Frobenius范数指矩阵各元素的平方和的平方根。
为了知道模块中可以调⽤哪些函数和类，我们调⽤dir函数，以“__”（双下划线）开始和结束的函数（它们是Python中的特殊对象），或以单个“_”（单下划线）开始的函数（它们通常是内部函数）；有关如何使⽤给定函数或类的更具体说明，我们可以调⽤help函数。如help(torch.ones)；