鱼儿会飞吗-CSDN博客

原创条件独立性是什么？

根据条件概率定义，可得：根据条件独立定义，可得：替换为下式：发现确实成立。

2025-03-11 16:20:20 216

原创 Actor-Critic是什么？策略学习的范畴吗？

Actor-Critic 是一种强化学习算法，属于策略学习的范畴。这种方法结合了策略（Actor）和价值（Critic）两种组件，以提高学习效率和稳定性。

2025-01-09 09:32:48 308

原创 For any state s and action a, the valueP(s, a)(s′), also sometimes denoted P(s′| s, a)

因此，并不是乘积的意思，而是表示通过转移函数 P 查询特定状态 s′ 的概率。这种用法在某些文献中可能会有所不同，但理解为函数调用是最为准确的。在这个语境中，符号或。

2025-01-09 08:41:06 783

原创 R : S × A → R is a reward function解释这个符号含义

符号描述了奖励函数的定义。

2025-01-09 08:31:10 342

原创 S × A → ∆(S) 这个符号是什么意思？S和A中间的乘号是笛卡尔积的意思吗？箭头又是什么含义？

整体来看，P : S × A → ∆(S) 的意思是，给定一个状态和一个动作，转移函数 P 会输出一个概率分布，表明在该状态下采取该动作后可能转移到各个新状态的概率。这是强化学习中描述环境动态的重要部分。

2025-01-09 08:29:38 177

以ChatGPT为例，他们使用了微软的超算基础设施进行训练，据说动用了10000块V100 GPU，组成了一个高带宽集群。一块V100的FP32算力，是0.014 PFLOPS（算力单位，等于每秒1千万亿次的浮点运算）。GPU的利用率是不可能达到100%，如果按33%算（OpenAI提供的假设利用率），那就是26再翻三倍，等于78天。也就是说，如果GPU的利用率是100%，那么，完成一次训练，就要3640÷140=26（天）。可以看出，GPU的算力、GPU的利用率，对大模型的训练有很大影响。

2024-12-17 19:32:18 323

原创当我们已经有词嵌入时，为什么我们还需要 BERT？

例如，I encountered a bat when I went to buy a cricket bat.(我去买板球拍时遇到了一只蝙蝠)，这里，第一次出现的bat“蝙蝠”，指的是一种哺乳动物，第二次出现的指的是一只球拍。因此，将生成单个词bat“蝙蝠”的表示。这将导致错误的预测。BERT 嵌入将能够通过为同一个词bat“蝙蝠”生成两个不同的向量来区分和捕捉两个不同的语义含义。在这种情况下，bat“蝙蝠”这个词的第一次和第二次出现需要以不同的方式表示，因为它们的含义不同，但是词嵌入将它视为相同的词。

2024-12-17 09:55:21 216

原创 BERT整体框架

BERT整体框架包含Pre-training和Fine-tuning两个阶段，如图所示。Pre-training阶段,模型首先在。训练好的模型获得了一套初始化参数之后，，直至在特定任务上重新收敛。

2024-12-17 09:20:56 250

原创 Sinusoidal Position Embedding 的物理意义就是顺时针旋转，同时也正是论文中提到的是关于的线性变换

参考：https://www.zhihu.com/question/647150549/answer/3520531981

2024-12-17 08:21:59 217

原创旋转是一种线性变换

https://www.zhihu.com/question/647150549/answer/3520531981

2024-12-17 08:12:05 210

原创为什么Transformer原始论文位置编码公式选择参数base=10000

https://zhuanlan.zhihu.com/p/675243992

2024-12-17 07:49:01 228

原创 Positional Encoding

上表中维度0，维度1，维度2，维度3拼成的数字就是该位置对应的二进制表示。可以看到每个维度（每一列）其实都是有周期的，并且周期是不同的。具体来说，每个比特位的变化率都是不一样的，越低位的变化越快（越往右边走，变化频率越快），同样的道理，不同频率的sin正弦函数和cos余弦函数组合，通过调整三角函数的频率，可以实现这种低位到高位的变化，这样就能把位置信息表示出来。最简单直观的加入位置信息的方式就是使用1，2，3，4，…这也回答了为什么周期函数能够引入位置信息。使用多个周期不同的周期函数组成的多维度编码。

2024-12-16 16:36:13 290

原创 were typically considered position-agnostic

单词的顺序对自然语言理解具有重要价值。基于卷积神经网络（CNNs）的模型通常被认为是位置无关的，但最近的研究（Islam et al. [2020]）表明，常用的填充操作可以隐式地学习位置信息。“基于卷积神经网络（CNNs）的模型通常被认为是位置无关的”意思是，CNN在处理输入数据时，不会考虑数据中元素的具体顺序或位置。简单来说，CNN在处理数据时，关注的是特征的空间结构，而不是元素的顺序。这使得它在某些任务（如图像处理）中表现出色，但在处理自然语言时，可能需要额外的机制来捕捉词语之间的顺序信息。

2024-12-15 14:33:01 149

原创 ELMo: 动态词向量

ELMo 相对于 word2vec是质的提升，可惜的是，ELMo 更多的是从增加额外特征的角度入手，相当于在原来下游任务特征基础上加了由语言模型得到的特征，也不改变下游任务模型，一年后，BERT 拿到了 NAACL 2019 Best Long Paper，由预训练词向量过渡到了预训练模型，直接使用预训练模型做下游任务，不夸张的说，从思路来说这是跨时代的提升，此后 ELMo 迅速退出了历史舞台。本文作者提出了一种动态词向量，根据词在句子中的上下文得到更贴近语义的向量表示。B: 没什么意思，意思意思。

2024-12-02 14:07:48 463

原创什么叫表示学习

表示学习通过捕捉数据的潜在特征，帮助模型超越传统的词序列建模，使得语言模型能够在更广泛的应用中进行有效的知识表示和推理。International Conference on Learning Representations 国际学习表征会议2013 年开始每年举办一次ICLR 是由位列深度学习三大巨头之二的 Yoshua Bengio 和 Yann LeCun 牵头创办。

2024-12-02 08:32:03 517

原创一个连续的向量空间哪里体现连续

在连续向量空间中，两个向量之间的距离（如欧几里得距离或余弦相似度）是连续变化的。这意味着小的向量变化会导致小的距离变化，反映了词义的细微差别。：在连续向量空间中，可以在两个向量之间进行插值，生成新的向量。这意味着在这个空间中，向量可以在各个维度上平滑变化，而不仅仅是离散的特定值。：连续向量空间中的点（向量）可以通过简单的线性组合或其他数学运算相互转换，从而形成一个平滑的、没有突变的表示。这些特点使得连续向量空间能够有效地表示和处理复杂的语义关系，超越了传统离散表示的限制。

2024-12-01 08:44:24 317

原创 Encoder-Decoder框架什么时候提出的？

而Seq2Seq模型的基本思想非常简单一一使用一个循环神经网络读取输入句子，将整个句子的信息压缩到一个固定维度（注意是固定维度，下文的注意力集中机制将在此做文章）的编码中；虽然LSTM确实能够解决序列的长期依赖问题，但是对于很长的序列（长度超过30），LSTM效果也难以让人满意，这时我们需要探索一种更有效的方法，即注意力机制（attention mechanism）。在上文的讨论中，我们均考虑的是输入输出序列等长的问题，然而在实际中却大量存在输入输出序列长度不等的情况，如机器翻译、语音识别、问答系统等。

2024-11-27 08:43:37 388

原创机器学习为什么要先确定模型

机器学习（深度学习）为什么需要训练，训练出来的模型具体又是什么？_深度学习模型训练是把真实结果输入训练什么-CSDN博客

2024-11-07 14:56:18 233 1

原创机器学习方法三要素理解：模型、策略、算法

从给定的、有限的、用于学习的训练数据(training data)出发，假设数据是独立同分布产生的；应用于某个评价准则(evaluation criterion)，从假设空间中选取一个最优模型，使它对已知的训练数据及未知的测试数据(test data)在给定评价准则下有最优的预测；机器学习方法之间的不同，主要就是来自于模型、策略、算法的不同，确定了模型、策略、算法，那么机器学习的方法也就确定了。这样，机器学习方法包括：模型的假设空间，模型的选择准则以及模型的学习算法。称其为机器学习方法的三要素，简称为。

2024-11-07 14:49:19 421

原创到底选择哪个f？

2024-11-07 09:20:02 154

原创 Exercise 1.7(d)学习算法是在训练数据上结果全部正确，但是在预测数据上和$\text {XOR}$不符合度最高的的假设

2024-11-07 08:44:48 142

原创 Exercise 1.7(c)有奇数个$1$则取$•$，否则取$o$

2024-11-07 08:39:46 88

原创 Exercise 1.7(b) 假设空间为全$o$以及全$•$

学习的算法是取和训练数据集符合程度最少的假设，所以这里取全$o$

2024-11-07 08:36:08 518

原创 Exercise 1.7(a) 假设空间为全$o$以及全$•$

显然全$•$在$5$组训练数据上有$3$组正确，全$o$只有$2$组正确，所以这里取全$•$2个点相同的函数是f4，f6，f7。1个点相同的函数是f2，f3，f5。3个点相同的函数是f8。

2024-11-07 08:32:10 312

原创 Outside the Data Set

这个简单的布尔情况的优势在于,我们可以枚举整个输入空间(因为只有 2³ = 8 个不同的输入向量),并且我们可以枚举所有可能的目标函数(因为 f 是一个 3 个布尔输入的布尔函数,而 3 个布尔输入只有 2^(2^3) = 256 个不同的布尔函数)。让我们来看学习函数 f 的问题。当我们获得训练数据D,比如图1.7的前两行,我们就知道了D中所有点上函数f的值。但这并不意味着我们已经学会了f,因为这并不能保证我们了解f在D之外的任何信息。既然我们认为函数f是未知的,那么我们可以证明f在D之外仍然是未知的。

2024-11-05 18:12:58 437

原创 Is Learning Feasible?

例如,如果真正的函数f在图案对称时输出+1,那么测试点的值就会是+1。但如果f在图案的左上角为白色时输出+1,那么测试点的值就会是-1。"可行性"一词在这个上下文中表示,虽然目标函数(target function)是未知的,但使用有限的数据集是否足以确定整个目标函数。也就是说,从有限的数据中学习一个未知的目标函数是否实际上是可行的。所以这里问的是,在只有有限数据集的情况下,学习未知的目标函数是否属于可行的范畴。目标函数f是学习的对象，关于目标函数最重要的陈述就是它是未知的，我们真的是指它是未知的。

2024-11-05 17:56:21 344

原创 Other Views of Learning

这里的 "nonetheless" 表示"尽管如此",强调即使结果较弱,但其适用范围依然很广泛。"broadly"则是指这种适用性是广泛的、普遍的。我们做出的假设相对宽松一些,采用的是更加广义的模型,而不像统计学那样严格。因此,我们得到的结果虽然相对较弱,但却更加普遍适用。"Uncover" 的中文意思是 "揭示"、"发现" 或 "揭开"。这里的 "underlying" 表示隐藏的或基础的，指的是支配观察结果的深层规律或机制。统计学依循了从数据中学习的基本前提，利用一组观测数据来揭示潜在的规律性过程。

2024-11-05 16:06:02 201

原创 Probability to the Rescue

"Probability to the Rescue"这个短语生动形象地表达了概率分析在这个过程中扮演的关键角色 - 它像是一种"拯救"的力量,帮助我们突破局限,获得更多的洞见和理解。这种用比喻的方式来描述概率分析的作用,使得标题更加生动有趣。如何利用概率分析的方法,从有限的数据中推断出更多有价值的信息,从而帮助我们克服数据不足的困境,解决学习问题。

2024-11-05 15:47:03 267

原创训练阶段和测试阶段最本质区别是什么

训练阶段关注于模型的学习和优化，而测试阶段专注于评估模型在未见数据上的表现。这两个阶段在目的、数据处理和反馈机制上有本质的区别，确保模型不仅在训练数据上表现良好，也能在实际应用中有效。

2024-11-05 15:20:46 618

原创使用Typora添加行内数学公式怎么添加？

点击“文件” --> “偏好设置” --> “Markdown” --> “Markdown扩展语法” —> 勾选 “内联公式（例：$ \LaTeX $）”首先需要确认，Typora已经勾选 “插入内联公式” 选项。会被渲染为 E=mc2E=mc^2E=mc2。确认以上步骤之后，就可以使用了。：用于表示行内数学公式。

2024-11-03 15:28:40 779

原创选择五次多项式来拟合由一次函数生成的数据时，尽管可以找到无数条=0的曲线，但这实际上是过拟合的表现

比如说增加到2次，3次，注意这里2次，3次的模型其实是包含更低的1次模型的，也就是说2次模型可以拟合出直线，也可以拟合出抛物线，3次模型可以拟合出直线，抛物线，3次曲线，都可以，这样就算选择了2次3次的模型，最后只需要寻找Ein最小的情况，仍然可以寻找到这根直线，毕竟2次，3次曲线我们没有办法让Ein=0，也就是说这种情况下，虽然模型选择了更复杂的，但是好像并没有带来过拟合，那是不是过拟合就不会产生了呢？模型未能学习到数据背后的真实规律，而是对训练数据进行了过度拟合，导致在新数据上的泛化能力下降。

2024-11-02 08:39:39 333

原创什么是过拟合？

2024-11-01 20:15:35 201

原创了解一个东西，有两种思路

那这个思路虽然不能让你搞明白它的内部结构，但是它能让人清晰知道它的作用和意义，林轩田老师课堂难懂，很大一部分原因，就是一上来就把这个盲盒给你打开了，看课程的时候，就经常会给你一种感觉，我是谁，我在哪，为什么要这样做，这种困惑，而王木头学科学up的思路是，先拿这个盲盒，和大家一起端详端详，摇一摇，听听声，先让自己对打开它充满期待。白盒思路就是我们把它打开，掰开了，揉碎了，搞明白它的内部结构，这个方法好是好，但是它要求你是有经验的专家，只有这样，你才能明白，要不然你就会经常遇到“为什么要这样”的这种疑问。

2024-10-30 21:17:19 288

空空如也

空空如也