- 博客(34)
- 资源 (1)
- 收藏
- 关注
原创 10分钟搞清楚为什么Transformer中使用LayerNorm而不是BatchNorm
Normalization技术旨在应对内部协变量偏移问题,它的核心在于将数据调整到一个统一的标准,以便进行有效的比较和处理。为了实现这一目标,***我们需要确保参与归一化的数据点在本质上是可比的。***(记住这句话就可以了)
2024-09-20 14:15:00 902
翻译 GraphRAG: 解锁大模型对叙述性私有数据的检索能力(中文翻译)
LLM 面临的最大挑战(也是最大的机遇)或许是将其强大的能力扩展到解决训练数据之外的问题,并使用 LLM 从未见过的数据获得可比的结果。这为数据调查开辟了新的可能性,例如根据上下文和数据集识别主题和语义概念。在本文中,我们介绍了微软研究院创建的 GraphRAG,这是增强 LLM 能力的一项重大进步。
2024-09-20 09:51:24 89
原创 搭配Knowledge Graph的RAG架构
在RAG(Retrieval-Augmented Generation)框架中,我们将文档切成小段(chunk),然后通过检索模块找到与查询相关的文档片段。这种方法可以提高生成文本的准确性和相关性,同时保持生成文本的时效性和专业性。然而,在实际文本中,chunk与chunk之间是存在关联的,而RAG技术并未充分考虑到这种关联性。
2024-09-18 14:00:00 1023
原创 向量数据库拥抱大模型
向量数据库的崛起与大模型时代的需求紧密相关,它为大模型提供了外部知识库的支持,增强了生成能力,支持向量嵌入,并解决了数据局限问题。
2024-09-18 09:22:53 736
翻译 vLLM: 使用PagedAttention轻松、快速且廉价地提供LLM服务(中文翻译)
在学习vLLM和PagedAttention的过程中,我发现了很多非常优质的资料。其中最有价值应该是这篇vLLM的官方博客, 我认为它写得非常好,因此尝试将其翻译,希望这能帮助到更多需要相关信息的人。
2024-09-13 14:30:00 997
原创 Open AI的o1大模型用强化学习突破LLM推理极限,我们用强化学习的思想解决不知道吃什么的选择困难症
OpenAI 正式公开一系列全新 o1大模型,秘密武器在于强化学习和思维链。OpenAI 的o1大规模强化学习算法,教会模型如何在数据高度有效的训练过程中利用其思想链进行高效思考。
2024-09-13 09:50:35 757
原创 Transformer架构的GPU并行和之前的NLP算法并行有什么不同?
Transformer的一个很大的优点是可以很好的利用GPU的并行计算能力,在训练大型模型时,需要考虑到模型的参数量和GPU的内存限制,这时候就需要使用FSDP和Offload等技术来优化训练过程,提高训练效率。
2024-09-11 14:30:00 1451
原创 智能涌现和AGI的起源
掌握强大技术的外星文明,有能力毁灭恒星,却在被他们视为杂草和虫豸的地球生物面前遭遇到挑战,因为他们发现人类所拥有的“诗艺”远在技术的控制范围之外。无法克隆人类“诗艺”的外星文明干脆开发出一种程序,以穷举的方式演算出所有文字可能的排列组合,并耗尽太阳系的全部能量,将规模惊人的数据存储起来,形成一片状如银河系的星云。
2024-09-11 09:47:36 853
原创 Agent设计范式与常见框架
"Agent范式"是指在人工智能领域中,特别是在设计和开发智能代理(Autonomous agents 或简称 Agents)时所采用的不同方法和技术。智能代理是指能够在环境中感知、推理并采取行动以完成特定任务的系统。在大型语言模型(LLMs)的背景下,Agent范式通常涉及到如何利用这些模型来提升代理的规划、决策和执行能力。
2024-09-10 09:26:02 719
原创 大家都谈的Scaling Law是什么?
一个农场里有一群火鸡,农场主每天中午十一点来给它们喂食。火鸡中的一名科学家观察到这个现象,一直观察了近一年都没有例外,于是它也发现了自己宇宙中的伟大定律:“每天上午十一点,就有食物降临。”它在感恩节早晨向火鸡们公布了这个定律,但这天上午十一点食物没有降临,农场主进来把它们都捉去杀了。
2024-09-06 09:31:09 960
原创 COT思维链,TOT思维树,GOT思维图,这些都是什么?
我认为COT能够以比较低的代价解决一些幻觉问题。但是TOT和GOT太fancy了,个人认为不太适合实际应用。与其这么复杂的prompt engineering,还不如换一个好的模型。
2024-09-04 15:00:00 1832
原创 开发大模型or使用大模型?
大模型的更新让人眼花缭乱,但整个大模型的生态圈,其实是分工明确的.大部分的大模型从业者都是在使用大模型,而不是在开发基座大模型.
2024-09-04 09:35:26 1000
原创 大模型有哪些评估指标?
你可能听说过A大模型比B大模型好,但你知道如何评估这些模型吗?在大模型领域,有许多指标可以帮助我们评估模型的性能。这些指标可以帮助我们了解模型的准确性、效率和可解释性。在本文中,我们将介绍一些常用的指标,以及如何使用它们来评估模型的性能。
2024-09-02 15:00:00 1568
原创 大模型的参数高效微调(PEFT),LoRA微调以及其它
相较于基础大模型动辄万卡的代价,微调可能是普通个人或者企业少数能够接受的后训练大模型(post-training)的方式。微调是指在一个预训练模型(pre-training)的基础上,通过少量的数据和计算资源,对模型进行进一步训练,以适应特定的任务或者数据集。
2024-09-02 09:23:41 1040
原创 复变函数在大模型中的应用
我还记得实习时做自我介绍时,我说我的研究方向是复分析。面试官不太了解,我便解释说,这是关于对 -1 开平方得到的虚数 i 的研究。在人工智能领域,经常会用到的数学知识包括矩阵、概率论和一些微积分。然而,最近在研究大模型的位置编码时,我惊讶地发现了复分析的应用,10年前的记忆逐渐浮现。
2024-08-30 09:49:40 1497
原创 大模型的latency(延迟)和throughput(吞吐量)有什么区别?
Latency:延迟,指的是从输入到输出的时间,即从输入到输出最后一个 token 的时间;Throughput:吞吐量,指的是单位时间内处理的任务数,即每秒处理的 token 数。
2024-08-30 09:33:23 1006
原创 FlashAttention v2相比于v1有哪些更新?
FlashAttention V2在减少计算量和内存访问的同时,保持了算法的精度和效率,实现了更快的Attention计算。这些优化使得V2版本在A100 GPU上前向传播的速度提升了大约2倍,达到了理论计算峰值的50%-73%。
2024-08-28 10:21:59 764
原创 从欧拉公式的美到旋转位置编码RoPE
RoPE非常巧妙的借助复平面和欧拉公式,将位置信息编码到了query和key向量中,使得模型能够利用上token之间的相对位置信息。RoPE的设计思路是将query和key向量进行旋转,这就是旋转的由来。
2024-08-28 09:47:23 881
原创 最美的数学公式-欧拉公式
也许你在某些场合听说过欧拉公式,也许你干脆对数学不感冒。机缘巧合下,你点开了这篇文章,大致浏览了下然后关闭,继续为自己的工作学习忙碌。这不妨碍你暂停忙碌的脚步,欣赏她的美。若干年后,你应该不曾记得看过这篇文章,但你会记得数学界有一个很美的公式。
2024-08-26 19:15:58 882
原创 什么是大模型的位置编码Position Encoding?
位置编码(Positional Encoding)是一种在处理序列数据时,用于向模型提供序列中每个元素位置信息的技术。在自然语言处理(NLP)中,尤其是在使用Transformer模型时,位置编码尤为重要,因为Transformer模型本身并不包含处理序列顺序的机制。位置编码的主要目的是让模型能够区分输入序列中词的顺序,从而更好地理解句子的结构和含义。.
2024-08-26 18:55:46 873
原创 CRUD/ETL工程师的末日?从NL2SQL到ChatBI
2024Q2陆续有互联网大厂chatbi落地的消息传出:比如阿里云+一汽落地了chatbi报表体系;火山引擎在飞书发布了datawind chatbi工具,支持在制定数据集上的chatbi能力。在ChatBI落地中,会遇到哪些问题,该如何解决呢?
2024-08-22 19:49:18 695
原创 我是怎么通过2022下半年软考高级:系统架构设计师考试的
我感觉2021年以后的选择题和之前的选择题还是有很大区别的,2020年之前的选择题,做题的时候基本都能拿个60+,但是21年的题只有50多分,22年的考试只有49分。考第一门的时候,题越做越慌,前面的题基本都是没有复习到的,只能排除掉1-2个错误答案,还好后面的题都是复习到的重点题。第二题,软件维护的方法,做过但是没有准备;心里有点慌张,我在第二题和第四题之间徘徊,最后,因为我本身是做AI的,再加上我之前做过数据湖,数据仓库,也准备过数据治理的论文,我准备将之前准备的东西再改造下,出一篇湖仓一体的论文。
2024-08-22 19:42:00 832
原创 大模型落地难点之幻觉
大模型出现幻觉,简而言之就是“胡说八道”。用《A Survey on Hallucination in Large Language Models》文中的话来讲,是指模型生成的内容与现实世界事实或用户输入不一致的现象。
2024-08-21 16:41:15 1079
原创 Langchain向左,扣子向右
对于很多人来说,langchain和扣子更像是面向两类人群的工具,langchain作为当下最流行的agent开发框架,面向大模型应用开发者;而扣子,更多的是娱乐性质的,玩家可以以最低无代码--只用prompt engineering的方式捏自己的bot,并分享到社群。而现在,随着类似扣子类平台API的深入开发,langchain的地位受到了挑战。
2024-08-21 16:34:58 901
原创 大模型output token为什么比input token贵?
近年来,许多商业大模型的价格不断下降,但你是否注意到一个关键细节:output token 的价格通常比 input token 高出几倍。这背后究竟是什么原因呢?
2024-08-16 22:54:42 298
原创 大模型落地难点之结构化输出
当需要把大模型嵌入到工作流中(尤其是原有的工作流),就需要大模型和原工作组件进行交互,在这种情况下,我们期望大模型的输出是结构化数据(Json)
2024-08-16 22:22:48 1001
原创 10分钟私有化部署大模型到本地
如今, 私有化部署一个大模型早已不是什么有门槛或技术含量的工作了,更多的只是一种信息差而已。照着这个教程来,即使小白也可以在本地部署大模型。
2024-08-14 16:58:42 530
原创 为什么会发展出Multi-Query Attention和Group-Query Attention?
如果你看GPT系列的论文,你学习到的self-attention是**Multi-Head Attention**(MHA)即多头注意力机制,MHA 包含h个Query、Key 和 Value 矩阵,所有注意力头(head)的 Key 和 Value 矩阵权重不共享。这个机制已经能很好的捕捉信息了,为什么会继续发展出MQA和GQA?
2024-08-13 19:06:59 267
原创 如何评判大模型的输出速度?首Token延迟和其余Token延迟有什么不同?
如果你使用商用大模型,或者使用开源大模型本地化部署,除了生成的质量之外,另外一个关键的指标就是生成token的速度。而且并不是简单的每秒生成多少个token,而是拆成了两个阶段: 1. prefill:预填充,并行处理输入的 tokens。 2. decoding:解码,逐个生成下一个 token。
2024-08-12 19:52:34 1506
原创 (万字长文)Prompt Engineering-解锁大模型的力量
你知道周期性函数只要满足狄利克雷条件,傅里叶级数就能完美地表示它;你知道在没有观测之前,原子处于衰变和未衰变的叠加状态,因此薛定谔的猫也处于既死又活的叠加状态,直到有人打开盒子进行观测;你知道世事洞明皆学问,人情练达即文章;你知道如何让800公斤的牛安全地通过一座承重700公斤的桥;你知道夏目漱石将“I Love You”翻译成“今晚月色真美”;面对喜欢的人时,你却不知道从何说起。每次打开聊天框,脑海里浮现的只有简单的“在吗?”
2024-08-07 22:09:06 552
原创 过去式就能越狱大模型?一文了解大模型安全攻防战!
男人不坏,女人不爱。这句话在谈恋爱领域不知道是不是真的,在人工智能领域倒是先应验了。「人工智能不坏,人类不爱。」
2024-08-06 19:26:08 979
原创 看懂FlashAttention需要的数学储备是?高考数学最后一道大题!
多年以后,面对FlashAttention,你会忍不住想起高三上学期的那节数学课。那时,暑假刚刚结束,烈日当空,教室里就像蒸笼一样,连空气都懒得流动。阳光透过窗帘的缝隙,像个顽皮的小孩,时不时跳到黑板上,给老师的公式镀上一层金边。老师在黑板前唾沫横飞,激情四溢地讲述着什么“等比数列”和“极限”,而你的脑袋却飞到了食堂,幻想着中午能不能抢到那份热气腾腾的番茄炒蛋。
2024-08-06 15:32:05 634
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人