- 博客(903)
- 收藏
- 关注
原创 Actor-Critic是什么?策略学习的范畴吗?
Actor-Critic 是一种强化学习算法,属于策略学习的范畴。这种方法结合了策略(Actor)和价值(Critic)两种组件,以提高学习效率和稳定性。
2025-01-09 09:32:48
308
原创 For any state s and action a, the valueP(s, a)(s′), also sometimes denoted P(s′| s, a)
因此,并不是乘积的意思,而是表示通过转移函数 P 查询特定状态 s′ 的概率。这种用法在某些文献中可能会有所不同,但理解为函数调用是最为准确的。在这个语境中,符号或。
2025-01-09 08:41:06
783
原创 S × A → ∆(S) 这个符号是什么意思?S和A中间的乘号是笛卡尔积的意思吗?箭头又是什么含义?
整体来看,P : S × A → ∆(S) 的意思是,给定一个状态和一个动作,转移函数 P 会输出一个概率分布,表明在该状态下采取该动作后可能转移到各个新状态的概率。这是强化学习中描述环境动态的重要部分。
2025-01-09 08:29:38
177
原创 PF-days是什么?
以ChatGPT为例,他们使用了微软的超算基础设施进行训练,据说动用了10000块V100 GPU,组成了一个高带宽集群。一块V100的FP32算力,是0.014 PFLOPS(算力单位,等于每秒1千万亿次的浮点运算)。GPU的利用率是不可能达到100%,如果按33%算(OpenAI提供的假设利用率),那就是26再翻三倍,等于78天。也就是说,如果GPU的利用率是100%,那么,完成一次训练,就要3640÷140=26(天)。可以看出,GPU的算力、GPU的利用率,对大模型的训练有很大影响。
2024-12-17 19:32:18
323
原创 当我们已经有词嵌入时,为什么我们还需要 BERT?
例如,I encountered a bat when I went to buy a cricket bat.(我去买板球拍时遇到了一只蝙蝠),这里,第一次出现的bat“蝙蝠”,指的是一种哺乳动物,第二次出现的指的是一只球拍。因此,将生成单个词bat“蝙蝠”的表示。这将导致错误的预测。BERT 嵌入将能够通过为同一个词bat“蝙蝠”生成两个不同的向量来区分和捕捉两个不同的语义含义。在这种情况下,bat“蝙蝠”这个词的第一次和第二次出现需要以不同的方式表示,因为它们的含义不同,但是词嵌入将它视为相同的词。
2024-12-17 09:55:21
216
原创 BERT整体框架
BERT整体框架包含Pre-training和Fine-tuning两个阶段,如图所示。Pre-training阶段,模型首先在。训练好的模型获得了一套初始化参数之后,,直至在特定任务上重新收敛。
2024-12-17 09:20:56
250
原创 Sinusoidal Position Embedding 的物理意义就是顺时针旋转,同时也正是论文中提到的是关于的线性变换
参考:https://www.zhihu.com/question/647150549/answer/3520531981
2024-12-17 08:21:59
217
原创 为什么Transformer原始论文位置编码公式选择参数base=10000
https://zhuanlan.zhihu.com/p/675243992
2024-12-17 07:49:01
228
原创 Positional Encoding
上表中维度0,维度1,维度2,维度3拼成的数字就是该位置对应的二进制表示。可以看到每个维度(每一列)其实都是有周期的,并且周期是不同的。具体来说,每个比特位的变化率都是不一样的,越低位的变化越快(越往右边走,变化频率越快),同样的道理,不同频率的sin正弦函数和cos余弦函数组合,通过调整三角函数的频率,可以实现这种低位到高位的变化,这样就能把位置信息表示出来。最简单直观的加入位置信息的方式就是使用1,2,3,4,…这也回答了为什么周期函数能够引入位置信息。使用多个周期不同的周期函数组成的多维度编码。
2024-12-16 16:36:13
290
原创 were typically considered position-agnostic
单词的顺序对自然语言理解具有重要价值。基于卷积神经网络(CNNs)的模型通常被认为是位置无关的,但最近的研究(Islam et al. [2020])表明,常用的填充操作可以隐式地学习位置信息。“基于卷积神经网络(CNNs)的模型通常被认为是位置无关的”意思是,CNN在处理输入数据时,不会考虑数据中元素的具体顺序或位置。简单来说,CNN在处理数据时,关注的是特征的空间结构,而不是元素的顺序。这使得它在某些任务(如图像处理)中表现出色,但在处理自然语言时,可能需要额外的机制来捕捉词语之间的顺序信息。
2024-12-15 14:33:01
149
原创 ELMo: 动态词向量
ELMo 相对于 word2vec是质的提升,可惜的是,ELMo 更多的是从增加额外特征的角度入手,相当于在原来下游任务特征基础上加了由语言模型得到的特征,也不改变下游任务模型,一年后,BERT 拿到了 NAACL 2019 Best Long Paper,由预训练词向量过渡到了预训练模型,直接使用预训练模型做下游任务,不夸张的说,从思路来说这是跨时代的提升,此后 ELMo 迅速退出了历史舞台。本文作者提出了一种动态词向量,根据词在句子中的上下文得到更贴近语义的向量表示。B: 没什么意思,意思意思。
2024-12-02 14:07:48
463
原创 什么叫表示学习
表示学习通过捕捉数据的潜在特征,帮助模型超越传统的词序列建模,使得语言模型能够在更广泛的应用中进行有效的知识表示和推理。International Conference on Learning Representations 国际学习表征会议2013 年开始每年举办一次ICLR 是由位列深度学习三大巨头之二的 Yoshua Bengio 和 Yann LeCun 牵头创办。
2024-12-02 08:32:03
517
原创 一个连续的向量空间哪里体现连续
在连续向量空间中,两个向量之间的距离(如欧几里得距离或余弦相似度)是连续变化的。这意味着小的向量变化会导致小的距离变化,反映了词义的细微差别。:在连续向量空间中,可以在两个向量之间进行插值,生成新的向量。这意味着在这个空间中,向量可以在各个维度上平滑变化,而不仅仅是离散的特定值。:连续向量空间中的点(向量)可以通过简单的线性组合或其他数学运算相互转换,从而形成一个平滑的、没有突变的表示。这些特点使得连续向量空间能够有效地表示和处理复杂的语义关系,超越了传统离散表示的限制。
2024-12-01 08:44:24
317
原创 Encoder-Decoder框架什么时候提出的?
而Seq2Seq模型的基本思想非常简单一一使用一个循环神经网络读取输入句子,将整个句子的信息压缩到一个固定维度(注意是固定维度,下文的注意力集中机制将在此做文章)的编码中;虽然LSTM确实能够解决序列的长期依赖问题,但是对于很长的序列(长度超过30),LSTM效果也难以让人满意,这时我们需要探索一种更有效的方法,即注意力机制(attention mechanism)。在上文的讨论中,我们均考虑的是输入输出序列等长的问题,然而在实际中却大量存在输入输出序列长度不等的情况,如机器翻译、语音识别、问答系统等。
2024-11-27 08:43:37
388
原创 机器学习为什么要先确定模型
机器学习(深度学习)为什么需要训练,训练出来的模型具体又是什么?_深度学习模型训练是把真实结果输入训练什么-CSDN博客
2024-11-07 14:56:18
233
1
原创 机器学习方法三要素理解:模型、策略、算法
从给定的、有限的、用于学习的训练数据(training data)出发,假设数据是独立同分布产生的;应用于某个评价准则(evaluation criterion),从假设空间中选取一个最优模型,使它对已知的训练数据及未知的测试数据(test data)在给定评价准则下有最优的预测;机器学习方法之间的不同,主要就是来自于模型、策略、算法的不同,确定了模型、策略、算法,那么机器学习的方法也就确定了。这样,机器学习方法包括:模型的假设空间,模型的选择准则以及模型的学习算法。称其为机器学习方法的三要素,简称为。
2024-11-07 14:49:19
421
原创 Exercise 1.7(a) 假设空间为全$o$以及全$•$
显然全$•$在$5$组训练数据上有$3$组正确,全$o$只有$2$组正确,所以这里取全$•$2个点相同的函数是f4,f6,f7。1个点相同的函数是f2,f3,f5。3个点相同的函数是f8。
2024-11-07 08:32:10
312
原创 Outside the Data Set
这个简单的布尔情况的优势在于,我们可以枚举整个输入空间(因为只有 2³ = 8 个不同的输入向量),并且我们可以枚举所有可能的目标函数(因为 f 是一个 3 个布尔输入的布尔函数,而 3 个布尔输入只有 2^(2^3) = 256 个不同的布尔函数)。让我们来看学习函数 f 的问题。当我们获得训练数据D,比如图1.7的前两行,我们就知道了D中所有点上函数f的值。但这并不意味着我们已经学会了f,因为这并不能保证我们了解f在D之外的任何信息。既然我们认为函数f是未知的,那么我们可以证明f在D之外仍然是未知的。
2024-11-05 18:12:58
437
原创 Is Learning Feasible?
例如,如果真正的函数f在图案对称时输出+1,那么测试点的值就会是+1。但如果f在图案的左上角为白色时输出+1,那么测试点的值就会是-1。"可行性"一词在这个上下文中表示,虽然目标函数(target function)是未知的,但使用有限的数据集是否足以确定整个目标函数。也就是说,从有限的数据中学习一个未知的目标函数是否实际上是可行的。所以这里问的是,在只有有限数据集的情况下,学习未知的目标函数是否属于可行的范畴。目标函数f是学习的对象,关于目标函数最重要的陈述就是它是未知的,我们真的是指它是未知的。
2024-11-05 17:56:21
344
原创 Other Views of Learning
这里的 "nonetheless" 表示"尽管如此",强调即使结果较弱,但其适用范围依然很广泛。"broadly"则是指这种适用性是广泛的、普遍的。我们做出的假设相对宽松一些,采用的是更加广义的模型,而不像统计学那样严格。因此,我们得到的结果虽然相对较弱,但却更加普遍适用。"Uncover" 的中文意思是 "揭示"、"发现" 或 "揭开"。这里的 "underlying" 表示隐藏的或基础的,指的是支配观察结果的深层规律或机制。统计学依循了从数据中学习的基本前提,利用一组观测数据来揭示潜在的规律性过程。
2024-11-05 16:06:02
201
原创 Probability to the Rescue
"Probability to the Rescue"这个短语生动形象地表达了概率分析在这个过程中扮演的关键角色 - 它像是一种"拯救"的力量,帮助我们突破局限,获得更多的洞见和理解。这种用比喻的方式来描述概率分析的作用,使得标题更加生动有趣。如何利用概率分析的方法,从有限的数据中推断出更多有价值的信息,从而帮助我们克服数据不足的困境,解决学习问题。
2024-11-05 15:47:03
267
原创 训练阶段和测试阶段最本质区别是什么
训练阶段关注于模型的学习和优化,而测试阶段专注于评估模型在未见数据上的表现。这两个阶段在目的、数据处理和反馈机制上有本质的区别,确保模型不仅在训练数据上表现良好,也能在实际应用中有效。
2024-11-05 15:20:46
618
原创 使用Typora添加行内数学公式怎么添加?
点击“文件” --> “偏好设置” --> “Markdown” --> “Markdown扩展语法” —> 勾选 “内联公式(例:$ \LaTeX $)”首先需要确认,Typora已经勾选 “插入内联公式” 选项。会被渲染为 E=mc2E=mc^2E=mc2。确认以上步骤之后,就可以使用了。:用于表示行内数学公式。
2024-11-03 15:28:40
779
原创 选择五次多项式来拟合由一次函数生成的数据时,尽管可以找到无数条=0的曲线,但这实际上是过拟合的表现
比如说增加到2次,3次,注意这里2次,3次的模型其实是包含更低的1次模型的,也就是说2次模型可以拟合出直线,也可以拟合出抛物线,3次模型可以拟合出直线,抛物线,3次曲线,都可以,这样就算选择了2次3次的模型,最后只需要寻找Ein最小的情况,仍然可以寻找到这根直线,毕竟2次,3次曲线我们没有办法让Ein=0,也就是说这种情况下,虽然模型选择了更复杂的,但是好像并没有带来过拟合,那是不是过拟合就不会产生了呢?模型未能学习到数据背后的真实规律,而是对训练数据进行了过度拟合,导致在新数据上的泛化能力下降。
2024-11-02 08:39:39
333
原创 了解一个东西,有两种思路
那这个思路虽然不能让你搞明白它的内部结构,但是它能让人清晰知道它的作用和意义,林轩田老师课堂难懂,很大一部分原因,就是一上来就把这个盲盒给你打开了,看课程的时候,就经常会给你一种感觉,我是谁,我在哪,为什么要这样做,这种困惑,而王木头学科学up的思路是,先拿这个盲盒,和大家一起端详端详,摇一摇,听听声,先让自己对打开它充满期待。白盒思路就是我们把它打开,掰开了,揉碎了,搞明白它的内部结构,这个方法好是好,但是它要求你是有经验的专家,只有这样,你才能明白,要不然你就会经常遇到“为什么要这样”的这种疑问。
2024-10-30 21:17:19
288
原创 如果完全不考虑X和T是什么关系的话?
最大的意义在于,我们不需要根据实际的情况现实是什么,这个X和T到底是什么样的关系,不用考虑了,我们就可以直接对(X,T)这个联合概率进行一个解耦,解耦成一个1维的情况和一个2维的情况,其中这个2维的情况,不是两个维度都有权重信息,而是只有一个维度有权重,另一个维度只是一个普通的变量,某种程度上来看,条件概率也算是一种降维了,是一种不完全的降维,需要补充额外的条件,才能实现真正的降维,也就是说降维的方式有两种,一种是边缘概率,另一种是条件概率。具体这个符号背后的意义是什么?
2024-10-29 10:41:32
763
原创 随机变量组成的这个方程对目标问题的描述并不完备
这个次数完全可以使用一个实数变量A来表示,具体A等于多少,可以通过时间间隔T和A的这个关系,也就是一个函数f(T)=A这样一个函数去决定,于是就可以知道当变量T取某一个具体数值的时候,对应的结果就是一个具体的数值,对应的是实数轴上的一个点。如果问题换了,不是康德了,而是康德的狗,狗每天也会经过家门口的桥,但是就没有那么有规律了,有的时候一天经过好几次,有的时候可能一次也没有,如果把狗经过桥上的次数使用随机变量来表示,仍然可以建立一个函数关系。
2024-10-29 09:00:46
169
原创 什么叫完备描述?
完备描述”指的是方程或模型能够全面、准确地捕捉和反映所研究现象的所有重要特征和动态。这意味着方程不仅要包含所有必要的变量和参数,还要考虑到它们之间的相互关系和影响。:模型涵盖了所有相关的物理量和影响因素。例如,在流体动力学中,若只考虑速度而忽略压力和温度,则模型不够完备。:方程应准确描述变量之间的关系。例如,麦克斯韦方程组能准确描述电磁场的行为,确保电场和磁场的相互作用被正确建模。:方程之间应保持逻辑和理论的一致性。比如,爱因斯坦场方程与广义相对论的其他核心理论相一致。
2024-10-29 08:42:19
791
原创 概率图是什么?
概率图不像是马尔可夫过程,平稳过程那样,硬生生做出假设,而是针对不同的问题具体分析,根据这些具体问题,把那个链式过程进行一些简化。因为有了贝叶斯网络提供的信息, 所以链式表达就可以做出了简化,表达形式能更简单。常说的概率图有两种,一个是贝叶斯网络,一个是马尔可夫网,也可以叫马尔可夫随机场。确定Z之后,就相当于把Z这个点给删除掉了,X和Y之间没有任何联系了。下面是贝叶斯网络的例子,当Z给定之后,X和Y是相互独立的。贝叶斯网络是一个有向图,是基于因果关系建立的。贝叶斯网络能简化一下问题的相关操作。
2024-10-29 08:15:17
246
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人