自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(27)
  • 收藏
  • 关注

原创 【AI学习】人工智能 or 人造智能 or 人创智能

Artificial Intelligence,似乎不应该翻译为人工智能,人造智能 or 人创智能是否更合适

2024-05-02 22:50:07 532

原创 【论文阅读】ChipNeMo中的对齐技术,《SteerLM: Attribute Conditioned SFT as an (User-Steerable) Alternative to RLHF》

SteerLM,一种监督式微调方法,允许最终用户在推理期间控制响应。SteerLM 使响应符合明确定义的多维属性集,从而使可操纵的 AI (steerable AI)能够生成有用且高质量的响应,同时保持可定制性

2024-05-02 21:58:02 797 2

原创 【论文阅读】ChipNeMo中的数据集处理

1)对于数据集,除了领域数据,依然需要公共数据,避免由于微调带来模型原有能力的灾难性遗忘。2)需要有领域评估基准,同样的,评估基准需要包含公共的LLM学术基准。3)数据重采样,这个方面,比如文章提到“对代码数据进行了下采样,同时对自然语言数据,特别是设计文档进行了上采样”等,但是,具体的采样比例如何获得,文章并没有说。参考其他来源,数据重采样的合适比例,应该是通过尝试获得,训练后如果评估效果不好,相应调整数据采样比例,反复试验获得的良好的评估结果。

2024-04-30 20:52:07 1395 1

原创 【论文阅读】ChipNeMo中的领域适配检索模型

对 RAG 使用领域适配语言模型可以显著提高特定领域的问题的答案质量。此外,文章还观察到,使用适量的领域特定训练数据微调现成的无监督预训练检索模型,检索命中率有了显著提高,可以显著提高检索准确性。

2024-04-30 20:40:41 968

原创 【AI学习】Ben Thompson对 Nat Friedman 和 Daniel Gross的采访

看到所有这些公司的 CEO 都在吹嘘他们的 MMLU 参数指标(MMLU number, 大规模多任务语言理解基准)是很有趣的,而 MMLU 是丹·亨德里克斯 ( Dan Hendrycks ) 在大学本科时自己开发的一个评估。所以你基本上是看到万亿美元公司的 CEO 在谈论他们在一个本科生推出的测试中的分数,而这是目前最重要的推理评估(the premier reasoning eval)之一。

2024-04-27 22:55:20 867

原创 【论文阅读】LLM撰写长文!《Assisting in Writing Wikipedia-like Articles From Scratch with Large Language Models》

文章提出了 STORM,一个写作系统,用于通过检索和多角度提问来合成主题大纲。STORM 通过以下方式模拟写作前阶段:(1) 在研究给定主题时发现不同的视角,(2) 模拟对话,其中带有不同视角的写作者向基于互联网可信来源的主题专家提出问题,(3) 策划收集到的信息以创建大纲。

2024-04-27 21:07:38 666

原创 【文章转载】Meta 宣布推出 Llama 3 的介绍

学习了微博网友@宝玉xp老师最新的文章,文章有很多关于Llama3的细节

2024-04-26 21:22:12 498

原创 【论文阅读】《Octopus v2: On-device language model for super agent》,端侧大模型的应用案例

这篇文章的核心就是,如何根据用户要求,让语言模型能够正确的进行API函数调用。文章的方法,简单说,就是把各种API函数的函数名,作为functional token新增到词汇表,把函数查询变成一个基于语言模型的分类问题。同时,为了选择正确的functional token,语言模型必须理解与该token相关联的含义,通过将函数描述纳入训练数据集,让模型完成相关知识学习。

2024-04-26 20:54:45 937

原创 【文章转载】Lance Martin的关于RAG的笔记

从头开始学习 RAG,看Lance Martin的这篇笔记就行了,包含了十几篇论文和开源实现!

2024-04-25 22:50:47 775 1

原创 【AI学习】RAG与推荐系统

推荐系统和RAG(Retrieval-Augmented Generation)确实在某些方面有相似之处,尤其是在处理信息检索和生成任务时

2024-04-25 21:26:58 616 1

原创 【论文阅读】Self-DC:何时检索,何时生成?

对于RAG来说,什么时候利用外部检索,什么时候使用大模型产生已知的知识,以回答当前的问题?这是一个非常有趣的话题。《Self-DC: When to retrieve and When to generate? Self Divide-and-Conquer for Compositional Unknown Questions》这篇论文正好探讨了这个问题。

2024-04-25 21:17:54 1390 1

原创 【论文阅读】2023年图灵奖得主Avi Wigderson的最新论文,《Constant-Depth Arithmetic Circuits for Linear Algebra Problems》

论文《Constant-Depth Arithmetic Circuits for Linear Algebra Problems》主要研究了常数深度算术电路在线性代数问题中的应用。从技术角度来看,这篇论文的核心贡献在于提出了一个高效的算法框架,使得处理这些数学问题时能够保持计算复杂度和资源消耗在一个相对较低的水平。这种设计特别适用于需要大量并行计算的场景,如云计算或高性能计算环境

2024-04-23 23:08:06 610

原创 【论文阅读】MOE,《OUTRAGEOUSLY LARGE NEURAL NETWORKS: THE SPARSELY-GATED MIXTURE-OF-EXPERTS LAYER》

MoE这种方法很容易想象,因为人的大脑有类似的机制。人的大脑针对不同的任务,只有部分的神经元集群激发进行工作,大脑的不同区域有不同的分工。

2024-04-23 21:41:48 474 1

原创 【AI学习】Transformer的Token嵌入表示为什么那么长

经过Transformer编码器后的每个Token,已经不是一个单独的Token,而是拥有了过去、现在和未来的全局文本语义信息,能够理解过去,也能够预测未来。

2024-04-23 21:34:09 1049

原创 【论文阅读】《Large Language Models for Networking: Applications, Enabling Techniques, and Challenges》

文章探讨了大型语言模型(LLMs)在网络领域的应用,并提出了一些使能技术和面临的挑战。

2024-04-22 21:01:17 707

原创 【论文阅读】ChipNeMo中的领域适配分词技术

这种领域适配分词的方法,旨在通过适应领域特定的术语和模式来提高LLM在特定领域数据集上的性能,同时保持其在一般数据集上的泛化能力。

2024-04-22 20:54:13 837

原创 【AI学习】有关“长文本 vs RAG”

长文本 vs RAG之间的关系,也和微调 vs RAG一样,并不是对立关系,更可能是互补关系

2024-04-21 22:14:33 297 1

原创 【论文阅读】IndoBERTweet,如何高效的进行领域适配分词

文章提出了IndoBERTweet,这是一个针对印尼语推特数据的大型预训练模型。这个模型通过在单语种训练的印尼语BERT模型基础上增加特定领域的词汇来训练,特别关注在词汇不匹配情况下的高效模型适应性,并通过不同的方式初始化BERT嵌入层来适应新词类型。

2024-04-21 22:11:39 549 1

原创 【AI学习】对RAG的理解

微调与RAG之间的关系,比较喜欢一个通俗的解释:微调有点像闭卷考试,将专业知识注入到模型中,RAG有点像开卷考试,可以让你带着资料,但是呢,虽然最后是开卷考试,但是老师平时还是要按照闭卷考试的难度去要求学生学习,这样有了能够应对闭卷考试的水平,才能够在开卷考试中有更好的成绩,否则,抄都不知道怎么抄。微调 vs RAG,这两个技术,相辅相成,不矛盾

2024-04-20 10:30:06 505

原创 【论文阅读】BGE Landmark Embedding: 一种用于大语言模型长上下文检索增强的嵌入方法

BGE Landmark Embedding这篇论文要解决的技术问题,在RAG技术中,分块是个麻烦的问题,通常通过经验或启发式方法来解决。但是无论如何,分块打破上下文的连贯性,对嵌入不利,另一方面,连续的信息可能划分到不同的块中,显著的块可以很容易地被检索到,其他有用但不那么显著的块可能被忽视,等等问题。那分块有问题,但是文本太长时又不能不分块,采用滑动窗口就成为一个自然的选择。

2024-04-20 10:18:33 958

原创 【AI学习】对微调(Fine-tuning)的理解

做一个不十分准确的对比,对比一个人的学习过程,预训练有点像学校学习,从小学一直到本科、硕士、博士等,SFT有点像进入单位的短期实习,RLHF有点像单位的规章制度学习,告诉你什么可以做什么不能说,要尊敬领导不要反驳领导等等

2024-04-19 21:17:58 885

原创 【论文阅读】机器翻译新范式,《A Paradigm Shift in Machine Translation》

论文提出了一种基于LLM的机器翻译的新范式,性能好,并且降低了对翻译数据的监督数据的数据量需求,只需要基于单语数据进行无监督的继续预训练和少量翻译数据的有监督微调,就能达到甚至优于传统的编码器-解码器结构的机器翻译性能

2024-04-19 21:10:32 843 1

原创 【AI学习】《潜望》对杨植麟的访谈要点

关于长文本,关于行业发展,很多观点

2024-04-17 21:46:09 449

原创 【论文阅读】英伟达ChipNeMo,一个领域大模型的训练案例

这是英伟达针对芯片设计训练的一个领域大模型(ChipNeMo),使用了微调和RAG的组合技术,论文有针对技术细节的大量对比分析,对于理解微调和RAG技术,是一个非常好的技术案例

2024-04-17 21:27:01 833

原创 【AI学习】 “蛋糕”的启发

LeCun用蛋糕来比喻机器学习,监督学习和强化学习分别比作是蛋糕的糖霜和樱桃,而无监督学习则就是蛋糕本身

2024-04-16 23:01:06 255

原创 【AI学习】什么是深度学习

对比机器学习,深度学习是一种端到端的学习方法。

2024-04-16 22:18:00 283

原创 【论文阅读】谷歌Infini-Transformer,一种长上下文的注意力机制

谷歌最新论文《Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention》,提出了一种新的方法来扩展基于Transformer的大型语言模型(LLMs),使其能够高效处理无限长的输入序列,同时保持内存和计算资源的有界性

2024-04-16 22:07:42 934 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除