自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 资源 (17)
  • 收藏
  • 关注

原创 OpenAI o1的开源平替版self-replay RL来了!

引人注目的是,rStar将LLaMA2-7B在GSM8K数据集上的准确率从12.51%提高到63.91%,将Mistral-7B的准确率从36.46%提高到81.88%,将LLaMA3-8BInstruct的准确率从74.53%提高到91.13%。相互一致性反映了在缺乏监督的情况下的常见人类实践,其中同行(即两个SLMs)对推导出的答案的一致性表明了更高的可能性是正确的。然而,所达到的性能往往取决于LLM的固有能力,对于SLM来说,它们较弱的指令遵循能力和不可靠的自我奖励可能会误导自我改进。

2024-09-15 16:40:35 463

原创 LLM新里程碑!OpenAI o1!

传统LLM的scaling law主要是模型数据量和模型参数量,侧重pretrain和postpretrain阶段,但由于自然语言符合zipf’s law,一味增多训练数据,其实还是强者恒强,补充的知识大概率原来的训练数据就有的,对模型带来新信息的边际效能会逐渐递减,而从开源模型和闭源模型之间的差距在逐渐缩小也可以看出,再依靠大力出奇迹去卷数据量卷参数量,不太好使了。,告诉模型去拆碎对prompt的理解,并考虑多个方法去产生最后的答案,产生答案并作为可见的token后,模型删掉之前的。

2024-09-15 16:37:46 1076

原创 基于困惑度相关性的预训练数据质量调优

高质量的预训练数据通常被视为高性能语言模型(LLMs)的关键。然而,由于数据选择实验需要昂贵的预训练运行,对预训练数据的理解进展缓慢。我们提出了一个框架,避免了这些成本,无需我们自己的LLM训练即可选择高质量的预训练数据。我们的工作基于一个简单的观察:许多预训练文本上的LLM损失与下游基准性能相关,选择高相关性的文档是一种有效的预训练数据选择方法。

2024-09-12 13:36:14 774

原创 如何设计能让基于LLM的embedding模型更有效?

这种策略的优势在于能够从LLM的不同层中捕获和整合信息,这可能包含关于输入文本的不同方面的语义信息。在搜广推场景,双塔模型是业界标配,尤其是搜索引擎、推荐系统和语义文本相似性场景,普遍需要获得user和item / query和doc 好的embedding表示,便于大规模高效计算,主要是通过对比表示学习实现。多层可训练池化(Multi-Layers Trainable Pooling)策略是论文中提出的一种新的池化方法,旨在从大型语言模型(LLM)的所有隐藏层中捕获更丰富的语义信息。

2024-09-11 15:26:14 1064

原创 北大&阿里最新LLM偏好学习/反馈学习论文综述

大型语言模型(LLMs)展现出强大的能力,但要实现与人类偏好的对齐,往往需要少量数据来有效提升性能。研究领域分散,方法复杂,不同方法间的关系尚未充分探索。本文提出了一个统一框架,将偏好学习策略分解为模型、数据、反馈和算法四个组成部分,以促进对现有算法的深入理解并探索不同策略的协同优势。引言:介绍了LLMs的能力和偏好对齐的必要性。定义和公式化:定义了偏好学习的目标和过程。统一视角:提出了一个统一的框架,将偏好学习分解为四个组成部分。并对目前的反馈偏好学习进行了系统的总结归纳偏好数据。

2024-09-10 10:53:20 803

原创 LLM的上下文学习中示例样本的作用研究

文章探讨了大型语言模型(LLMs)在回归任务中是如何利用上下文示例进行学习(Learning)和知识检索(Retrieval)的,并提出了一个评估框架来分析这两种机制。

2024-09-09 12:54:46 574

原创 RLPF:用于LLM用户摘要的预测反馈

文章介绍了一种新的强化学习方法 RLPF(Reinforcement Learning from Prediction Feedback),用于优化大型语言模型(LLMs)生成的用户摘要,以提高下游任务的性能。

2024-09-09 12:48:42 620

原创 最新LLM的attention head的机制研究报告

最近,Zifan Zheng等人在arXiv上发表了一篇论文《大型语言模型的注意力头:一项调查》,对LLMs中的注意力头进行了深入的探讨和分析。未来的研究可以探索更复杂的任务,研究提示的鲁棒性,开发新的实验方法,并构建一个全面的可解释性框架。2. **需要建模的方法(Modeling-Required)**:构建新模型来深入研究特定头的功能,如探针方法和简化模型训练。1. **无需建模的方法(Modeling-Free)**:通过修改模型的潜在状态来观察输出变化,如激活替换和消融研究。

2024-09-09 11:30:48 189

阿里广告中的机器学习平台

阿里广告中的机器学习平台,介绍阿里 阿里广告中的机器学习平台相关技术

2016-01-19

最优化原理与方法

最优化原理与方法,对机器学习等领域比较有帮助

2016-01-19

机器人视觉技术

机器人视觉技术

2014-08-23

机器人学经典教材

机器人学经典教材

2014-08-23

隐马尔科夫模型

机器学习源代码 隐马尔可夫模型

2014-08-23

arm体系结构与编程

ARM体系结构与编程

2014-08-23

智能车程序

智能车源程序,为智能车比赛选手提供参考!

2014-08-23

波动足机器人

实用新型的波动足型行走机器人包括支撑支架,驱动传动机构,由多个并行排列的足部相连构成的阵列机构,相邻足部的偏心轮相对转轴的转角相差一固定角度

2014-02-13

LabVIEW入门教程

LabVIEW入门教程

2013-04-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除