- 博客(6)
- 收藏
- 关注
原创 纯研究O1的论文都发出来了,让我想起来研究红楼梦的红学
有点意思的论文 2410.13639简而言之就是曼彻斯特大学,浙大和中科大还有一些开源的项目组一些一起研究OpenAI O1的人,来发O1为什么牛B的论文正常,研究红楼梦毕竟也有红学(我是一集红楼梦也没看过,书和电视都没看过)。。。文章主要讲分析猜测和评估OpenAI的推理模式在不同任务上的效果同时也利用不同的模型比如GPT4o,Gemma,LLama, Qwen等尝试利用分析出来的O1的推理方式。
2024-10-29 19:23:55
943
原创 强化学习入门到不想放弃-5
也就是折扣系数,这个理解起来也不难,比如你做了一个动作不光对当前的state s有影响,也会对之后的state都会有影响,引申的含义就是当前的状态也会影响到之后状态所获得的奖励,但是当下的奖励的重要性一定会大于未来的奖励,γ的取值范围也是0到1(不能是1), 比如0.4,0.6,理论上越近折扣系数应该越高,这个也好理解,列成式子就是。圆形的有的有一个后续,有的有多个候选选择(概率),不同的action,有不同的奖励得分,比如刷facebook就扣1分-1,比如学习就加10分之类的。
2024-10-26 00:32:01
878
原创 GPT4o Realtime voice功能的复现路径
因为LLaMA-omni实际上在输入侧就一个voice input,但是文章里面的prompt其实也提示了,这里还有个text input的embedding,这就涉及到模态融合embedding的融合了,只不过这里做的特别巧妙,但是在GPT4o因为它的模态更多,更复杂,所以对模态的embedding要求更高,因为embedding不可能无限长,所以为了兼容视觉和语音,GPT4o的text embedding长度也被压缩了。
2024-10-16 15:14:08
829
原创 怎么理解Contextual-Retrieval ?(顺手讲一下prompt-cache)
如上面所示,原始得chunk,是两个"The",导致不管是embedding还是BM25都抓不出来它,那要是把original_chunk,通过某种手段,给转换成下面这种contextualized_chunk,把上下文信息给注入到chunk离,这下,如果还是刚才得问题,那必然是一问一个准。有人说用Hybrid RAG是不是能强点,比如上图,此时,你是加BM25 关键字,还是加Graph-RAG都没啥用,你懂得,因为回答是一系列得"The"指代,并没有和问题中得描述有关键字匹配,也没法建立节点和边得关系。
2024-10-10 23:28:47
1339
原创 强化学习入门到不想放弃-4
3- Reward:Agent默认如果对环境的规则没有任何概念的话,它是不知道如何做的,但是比如弄洒了水咋桌子以上,这种的行为,其实就是一个减分项,如果我们认为洒水要-100分,而把水擦干会得200分,那在之后Agent于环境的操作就不会洒水了,而发现别的水洒了,它会擦干,其实就有点像小孩对这个世界刚开始的认识差不多,是靠一些奖惩机制来了解世界的。2- Action:就是对环境执行的动作,Action对环境执行了动作以后,环境就改了,比如把水给洒桌子上了,那state 也就是环境的状态,也就变了。
2024-10-07 22:25:24
723
原创 CPU上推理矩阵乘不厉害,那么查表呢?MS的 新推理方法T-MAC
W(权重矩阵,int8): | 1 | -3 | 6 | | 4 | 8 | -4 | | 0 | 2 | -2 | A(输入激活矩阵,int8): | 4 | 1 | | -6 | 4 | | 3 | -5 |就是先把之前的矩阵打散,然后再给化成小的矩阵,比如都化成2*2的小矩阵,这样容易提升查找的命中率,然后为了优化内存的存储方式,再做一个permutation,最后可能就这样(随便举个例子)
2024-10-01 20:05:47
941
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人