机器学习
文章平均质量分 64
UNOboros
这个作者很懒,什么都没留下…
展开
-
从RL的专业角度解惑 instruct GPT的目标函数
这样,后人也可以更加透彻的理解这里面的核心思想,以及这篇文章所用的PPO和原始版本PPO之间的关联。原创 2024-07-08 13:18:40 · 701 阅读 · 0 评论 -
理解策略梯度方法:从REINFORCE到PPO
本文将探讨对数技巧的必要性、将轨迹积分转化为样本估计的方法,以及从REINFORCE到TRPO和PPO的演变过程。原创 2024-07-04 20:06:01 · 1108 阅读 · 0 评论 -
注意力机制的一般框架
假设我们把宇宙中所有的知识全部列在一张表中,表的每一行都是一个键值对(K,V),其中V就是知识,而K可以认为是对这个知识的摘要,用来检索这个知识。那么这个时候,当我们有一个问题Q的时候,最直接的做法就是去一个个的看K值,看看那个是和我这个问题最相关的。这就是一个问答的最简单的模型,原创 2024-02-20 15:45:09 · 448 阅读 · 0 评论 -
关于协变矢量和逆变矢量的直观理解
对于某个外部观测系来说,它可以看到所有的坐标系,坐标系之间的变化,以及对应的基的变化。那么这时就有两种情况,第一种是存在一个客观的对象,相对于外部观测系来说是恒定不变的,比如一座客观存在的山的高度。那么,无论内部坐标系如何去定义,它们只是在定义测量的方法,而这个客观存在的个体的客观性不会改变。因此,所有的坐标系都会尽其可能的去正确的描述这种客观性。所有的表述都应当具有一致性,但是由于坐标系的选取不...原创 2018-03-31 05:13:55 · 9284 阅读 · 0 评论 -
关于Hadoop以及S3的几个坑
首先是关于AWS上用distributive cache files的问题,由于AWS用的是S3文件系统,而文件cache以后是HDFS文件系统,那么当我们直接去取URI的时候就会发生一件诡异的事情:原来的s3://被转换成了s3:/,而且这种转换是不可避免的,不论你手工加slash什么的都没用…… 这个问题卡了我一晚上,搜了好多资料,最后才发现最完美的解决方案:在cache的时候用别名来标记原创 2015-12-04 13:41:22 · 5936 阅读 · 0 评论 -
note:SMO算法存在致命缺陷
由于这个算法诞生于微软实验室,发明这个算法的人计算机背景必定多余数学背景,导致最后这个算法有些处理实在是过于“工程”的,缺乏数学依据。此算法的基本思想是用两个线性优化来取代二次优化,但是从数学的角度来看,这是不可能的——线性从来就不能完全取代非线性,否则那些历史上那些伟大的数学家或者前苏联数学家早就发现了。为什么Vapnic当时没有想到这个方法?不,他作为数学家一定是想过的,但是数学是原创 2014-12-09 09:57:25 · 1584 阅读 · 1 评论 -
简析Wolfe Dual (Wolfe对偶性原则)
note:对于这个过程的一个直观的理解就是利用直线族的包络,对于每个固定的x,都有一条对应的以lambda为参数的直线,那么所有的x实际上就是一个直线族,这个直线族在每个lambda截面上必定有极大和极小值(极值可以是无穷)。这些极值最后组合成的曲线就是包络。而这个包络所对应的极值点(如果有限)应该就是原函数的鞍点(saddle)了转载 2014-11-27 11:02:02 · 6138 阅读 · 0 评论 -
关于高维超正体(cross-polytope)的性质及其应用
关于高维空间,有一个非常反直觉的事实,但是却很重要,特别是fu iyu原创 2014-11-22 16:15:22 · 2087 阅读 · 2 评论 -
What is Likelihood in terms of continuous probability distribution?
People usually get confused about the meaning or purpose of a Likelihood funt原创 2014-10-11 03:46:30 · 922 阅读 · 0 评论 -
Robbins-Monro 随机逼近算法和序列学习(Sequential Learning)
1951年,H.罗宾斯和S.门罗首先研究了此问题的一种形式:设因素x的值可由试验者控制,x的“响应”的指标值为Y,当取x之值x进行试验时,响应Y可表为Y=h(x)+ε,式中h(x)为一未知函数,ε为随机误差。设目标值为A,要找这样的x,使h(x)=A。分别以Y-A和h(x)-A代替Y和h(x)。不妨设A=0,问题就在于找方程h(x)=0的根x。例如若x为施药量,Y为衡量药物反应的某种生理指标,则问原创 2014-07-05 10:36:09 · 14295 阅读 · 0 评论 -
一种对拉格朗日乘子的直观理解
假如你面前有一座山,山上有一条复杂的小路,如果你爬山的时候只能顺着小路原创 2014-06-08 14:15:17 · 2324 阅读 · 0 评论