自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(96)
  • 收藏
  • 关注

原创 大模型参数规模扩大是趋势

大模型参数规模扩大是趋势,参数规模迈向万亿级。

2024-07-02 15:18:56 1356

原创 Transformer的诞生和崛起

然而,Transformer模型打破了这一传统,它能够同时处理一句话或一段话中的所有词语,无需像RNN(循环神经网络)那样,每个时间步(t步骤)的计算都必须依赖于前一个时间步(t-1步骤)的结果。同时,由于Transformer模型采用了自注意力机制,避免了RNN的循环结构,因此在计算过程中减少了不必要的计算量,进一步提高了模型的训练和推理速度。而Transformer模型则通过自注意力机制,使得模型在计算每个位置的输出时,都可以并行地考虑整个序列的信息,从而大大提高了模型的计算效率。

2024-06-25 11:39:58 937

原创 探索认知智能的未来:知识图谱的崛起

与此同时,大型语言模型的兴起,为知识图谱与这些模型的融合开辟了新的视角,使得解决复杂问题的方法变得更加明确。这一技术的发展不仅推动了汽车行业的革新,也为认知智能的实际应用提供了范例。这种技术融合不仅优化了信息处理的效率和准确性,而且为构建一个更加高效、智能的信息社会奠定了基础,预示着知识图谱在未来将在促进信息获取、增强智能服务等方面发挥更加关键的作用。通过对金融实体关系的深入分析,知识图谱能够生成详细的风险指标报告,这些报告包含了风险的类型、程度、影响范围以及可能的传导路径,为风险管理决策提供了有力支持。

2024-06-25 11:38:32 1119

原创 案例解析:RAG的尽头是Agent

笔者认为,Agent虽然功能强大,但路漫漫其修远兮,Agent的应用落地依然有很长的路要走,但是我坚信不久的将来会有更多的Agent应用落地,Agent应用会涵盖更多的技术,终将会融进各行各业,为人类带来更大的便利。等,通过RAG,建立一个庞大的知识库,当用户查询的时候,利用信息检索从知识库中查询相关文本片段或实时数据,然后我们对检索到的信息进行筛选、排序和加权等操作,最后将整合后的信息作为生成模型的输入,无疑是提高答案准确性,减少虚假信息,极大的增强大模型的可用性。等各种问题,如何让LLM变得更好?

2024-06-24 16:09:21 1336

原创 2024届应届生突破1179万人,如何瞄准AI行业,获得高薪职业前景

AI应用的开发通常不是单打独斗,一个生产级的AI应用不可能是一个人完成的,一个善于协作和沟通的团队,就是一份工作加分的地方。信息性面试,虽然称为面试,但是不必在特定公司或岗位的正式面试中进行,而是最好在求职准备阶段,通过访谈某一岗位的从业者,探索他每天日常工作是什么样的,这个角色承担的责任是什么,团队是如何协作的等等。

2024-06-24 16:07:07 1227

原创 在AI云原生时代应该如何应对复杂的算力环境

目前的算力环境仍然已英伟达的GPU设备为主,但是目前也有很多厂商的设备在被使用,虽然其中主流厂商都有提供自己的卡在K8S上的调度支持,但是这些厂商方案往往比较基础,通常需要按照卡的数量进行调度而没办法进行更细粒度的调度,导致很多计算资源被浪费,HAMI基于这些厂商的开源方案进行集成,主要在使用劫持CUDA的方案来实现计算设备的共享、隔离,在插件层使用一个方案集成多种计算资源.除了列举的几种情况外,还会有其他更多复杂的情况如多机多卡的推理/训练等场景。

2024-06-13 16:27:40 1131

原创 真的不再需要程序员了?

如果没有大语言模型,通常的做法是去阅读官方文档,在 Spacy GitHub 官方项目主页查找各种 issue 的解决方法,去 Google 中去大海捞针式的去查找一些很小众领域的问题,这还无法保证一定能找到答案。因此,不可否认,大语言模型给工程师带来的便利是值得肯定的。我们试想一个场景,当我们需要在一个 IO 密集型场景下去解决网络请求吞吐量控制的问题,这里就会涉及到入线程、信号量、线程切换等技术专有名字,如果做为解决问题的人不具备这些背景知识,他是很难提出好的提示词,那么大模型也就无法给出最优解。

2024-06-13 16:26:36 363 1

原创 GLM-4-9B领先!伯克利函数调用榜单BFCL的Function Calling评测方法解析与梳理

然而,虽然意图识别是大模型在最终到达AGI之前必须攻克的难关之一,函数调用模型的意图识别反而不是目前最受企业开发者关心的能力:在面对专业场景时,通常没有足够多的专业函数调用数据,只能通过非结构化的企业和行业知识文档来让通用模型获得一定的专业理解力,但可能仍然难以让模型找到用户问题和选用函数之间的对应关系,因此造成函数调用时准确率难以提升。目前函数调用的幻觉仍然是较难解决的问题之一,通常是由于模型理解力不足或者训练数据的过拟合所导致,在要求高的场景中需要额外的审查环节。输出必须与预期的数据类型匹配。

2024-06-06 14:25:53 1413

原创 原理与实战:利用Agent技术提升AI应用效能

根据用户的需求,它能够提供多种工具供用户选择,并且能够同时提供多种工具的功能,还可以将一个工具作为另一个工具的输入,实现数据的流畅传递和处理。人类回答:我需要知道明天武汉天气如何(推理),我会去天气预报上面查一查今天的天气如何(行动),然后我会根据这个天气是晴天还是雨天,来确定我要定价多少(推理),最后计算出一个售价(行动)!上述过程有很多地方需要大模型来思考如何进行下一步的推断,但是大模型是不会主动去推理下一步应该做什么的,这个时候需要我们进行思维上的引导,从而让大模型能够自主的进行步骤的推理。

2024-06-06 14:06:10 785

原创 传统RAG破局者:混合检索助力新纪元

将传统的基于关键字的检索想象成坚实的基础,植根于精确的术语匹配,但容易受到拼写错误和同义词的影响。简单来说,向量检索在语义理解方面具有优势,但前提是检索问题的长度要达到一定量级,才能在转化为向量之后,通过相似度匹配到语义最接近的内容,一旦用户有检索短词短句,或是具有特殊语义的句子,向量检索的效果就会大大折扣,因而模型生成准确度也会下降。技术原理是通过将外部知识库的文档先拆分为语义完整的段落或句子,并将其转换(Embedding)为计算机能够理解的一串数字表达(多维向量),同时对用户问题进行同样的转换操作。

2024-06-04 10:35:35 456

原创 AI文本处理的突破:从One-Hot到Embedding模型

文本向量化算法更迭:从One-Hot到Embedding模型©作者|饮水机来源|神州问学前言文本向量化是将文本数据转换为数值向量的过程。这种转换使得计算机能够理解和处理文本数据,从而可以应用各种机器学习和自然语言处理技术。文本向量化的主要问题是将非结构化的文本数据转换为结构化的向量表示,以便计算机能够对其进行处理和分析。通过文本向量化,可以实现文本分类、文本聚类、信息检索等任务。在大模型时代下,文本向量化的技术发展到了embedding阶段。Embedding是一种将高维的文本数据映射到低维空间的技术,它能

2024-06-04 10:34:48 615

原创 Vanna-AI:让你的大模型说好SQL

其次,随着数据量的不断增长和业务需求的不断变化,SQL查询语句的复杂性和性能要求也在不断提高。很明显,最大的区别不在于大模型的类型,而在于为大模型提供的上下文的类型(例如使用的训练数据)。在这一背景下,Vanna-AI作为一款Text-to-SQL的智能工具,以其独特的功能和优势,为数据库管理带来了革命性的变革。根据用户的反馈,对LLM进行进一步的训练或微调,提高模型生成SQL语句的准确性和效率。同时,可以将用户提供的正确SQL语句和查询问题存储到向量数据库中,作为新的训练数据,用于后续模型的训练和推理。

2024-05-30 11:12:53 2018

原创 平等未来的契机?探索通用人工智能AGI对社会平等的影响

因此,在推动AGI技术发展的过程中,深化对AGI的理解,探讨如何减缓AGI对社会平等的影响,并确保每个人都能充分利用AGI,是本文的核心议题。在这个情境下,有钱人可以利用AGI产品的学习能力来打造专属的专家助手,帮助他们分析和利用各种领域的数据,包括市场趋势、社会分析和个人偏好等。是的,有一个叫Ben Goertzel的人找到了我,他实际上一直在和我一起工作,他打算写一本书,他正在考虑一本关于人工智能系统的书,这本书将更加通用和有能力,而不是专注于非常狭窄的事情,他正在为这本书考虑一个标题。

2024-05-30 11:11:14 957

原创 AI Agent教育行业落地案例

AI技术正向着智能化、个性化和可解释性的方向不断前进,将进一步提升人机交互的自然度和智能化程度,而AI Agent也不断推进教育培训行业变革,虽然现在落地的AI Agent案例依然有着很多的不足,但是通过采用混合式学习模式和普及终身学习,终将促进个性化教育及更多的教育案例落地。人工智能在教育领域的应用早已迈出了第一步,这些案例无疑展示了AI Agent在教育培训领域中的多种应用,从语言学习到科学教育,都能够通过智能化的服务和支持,提高学习效率和效果,为学生和教师提供更好的学习和教学体验。

2024-05-28 14:16:44 1107

原创 AI Agent:自主性、反应性与交互性的融合,将颠覆软件行业

他接着给出了一个从HuggingGPT 论文中改编的例子:你和LLM说,”请生成一张图片,图中的女孩在看书,她的姿势要和我提供的.jpeg文件中男孩的姿势相同,最后用语音描述你生成的图像“,这时AI Agent会规划出做法:先提取.jpeg文件中男孩的姿态,这可能就需要在HuggingFace上找到一个合适的模型来提取这个姿势;可是其实技术的进步,大部分都是循序渐进的,没必要急着肯定或者否定,多看别人的研究,多找落地场景,多动手开发,才能真正达成人们期待中的Agent的作用。(智能体性工作流)。

2024-05-28 14:15:05 1001

原创 有了RAG我们还需要微调吗?

如何在资源受限的环境中有效部署PEFT模型是一个挑战。目前,大模型的热度居高不下,随着大模型的火爆越多的公司和组织开始使用大模型技术,往往大模型可以解决日常中的大部分问题,对于企业的私有知识的问答我们也可以通过RAG技术来进行实现,但是在面对特定任务、领域和场景时,基础大模型的通用知识往往不能给到我们准确的回复,而RAG技术通常依赖于通用知识库,这可能不包含特定领域的最新或者最专业的信息.最终我们仍然需要对模型本身进行微调,增强大模型本身的专业领域知识能力,来实现对专业领域等特殊场景的支持.

2024-05-21 17:35:32 1027

原创 Function Call & ReACT,Agent应用落地的加速器

相比之下,ReACT方式需要对模型进行更加细致的指导,让通用模型拥有输出规划、函数所需参数的能力,虽然这缓解了对模型本身输出能力的依赖,却增加了对提示工程的依赖,需要针对模型的特性来设计对应的提示模板,生成规划(函数的选择)和函数所需的API,并可能需要提供样例,消耗的上下文Token也相对更多一些。智能体应用的开发逐渐成为了各个大模型应用开发平台所关注的重点,无论是ReACt类型的框架,还是Function Calling类型的模型,都在以难以想象的速度不断迭代。

2024-05-21 17:30:09 2667

原创 未来已来:网页导航革命AutoWebGLM

不同的是,为了确保数据集的全面性,AutoWebGLM的团队选择为每种交互类型创建了一个分组,并根据实际使用中每种交互的使用频率调整每个分组的数据大小,而这样做的目的是为了反映出不同交互在现实世界中的实际使用频率。在大模型的知识图谱缺乏相关知识的时候,输出的回答就会产生幻觉。● 通过课程学习、自采样强化学习以及拒绝采样微调训练了AutoWebGLM智能体,并且通过多个测试数据集上的测试,证明AutoWebGLM 6B的效果可以与当前最先进的大模型智能体相媲美,在现实世界的互联网浏览任务中取得不俗的表现。

2024-05-17 17:32:04 592

原创 AI领域的黄金组合,你准备好了吗?

智能革命的风暴眼:大模型与知识图谱的终极联盟,重塑AI未来格局!©作者|Haoyang来源|神州问学一、背景介绍1. LLM的最新进展以ChatGPT为代表的生成式大模型在“大参数+大数据+大算力”的支持下,使得模型能够学习、理解更多的特征和模式,具备了惊人的自然语言理解能力,在意图识别、推理、语言生成等各个自然语言相关的通用的处理任务中取得了前所未有的成绩。从发展路线来看如图1所示,从早期的Word2Vec到预训练模型ELMo等的早期探索,再到Bert、GPT系列的惊艳登场,ChatGPT的一飞冲天和众多

2024-05-17 17:31:00 1022

原创 看马斯克与OpenAI的爱恨情仇,AGI之路会走向何方?

作为旁观者,我们无从得证马斯克是否真为实现人类AGI的美好愿景而努力,或许他的这次诉讼和六年前的愤然离开OpenAI意图相同,OpenAI的发展如此迅速,ChatGPT、Sora以及其他模型给世界带来的震撼是如此巨大,没有人包括马斯克自己会预料到OpenAI强大的吸金能力和不可估量的未来,是否也会是马斯克争夺强大技术的一种手段?自创立以来,马斯克不仅贡献了数千万美元的资金,提供研究方向的关键建议,还在招募世界级的优秀人才上发挥了关键作用,而这些贡献是基于OpenAI的创始协议考虑的。

2024-05-11 16:39:21 353

原创 看马斯克与OpenAI的爱恨情仇,AGI之路会走向何方?

作为旁观者,我们无从得证马斯克是否真为实现人类AGI的美好愿景而努力,或许他的这次诉讼和六年前的愤然离开OpenAI意图相同,OpenAI的发展如此迅速,ChatGPT、Sora以及其他模型给世界带来的震撼是如此巨大,没有人包括马斯克自己会预料到OpenAI强大的吸金能力和不可估量的未来,是否也会是马斯克争夺强大技术的一种手段?自创立以来,马斯克不仅贡献了数千万美元的资金,提供研究方向的关键建议,还在招募世界级的优秀人才上发挥了关键作用,而这些贡献是基于OpenAI的创始协议考虑的。

2024-05-11 16:38:11 595

原创 深入大模型量化技术,大模型端侧落地已Ready?

但是GPTQ的作者认为,在一行中以任何固定的顺序进行量化都能实现不错的效果,所以GPTQ为W的每一行都使用同样的顺序进行量化,在保证效果的同时计算量被减少几个数量级,提高了量化效率。尽管苹果和微软等企业不断地尽力提升小型模型的表现,受限于参数规模,这些模型只适用于极为简单的任务,而在体验过如GPT-4等大模型的强大后,许多用户希望能在便捷的移动设备上也可使用大模型的能力。随着模型规模的增加,需求更多的计算资源以及更高效的算法支持,同时也需关注模型的可解释性和透明性,以及其在不同领域的应用能力。

2024-05-07 13:56:38 911

原创 从ChatGPT革命性的对话系统,看人机交互模式6个阶段的演变

此外,苹果的Mac OS和iOS也是GUI技术的优秀代表,它们通过独特的设计风格和流畅的操作体验,赢得了广大用户的喜爱。同时,我们也需要关注到这些技术在应用过程中可能存在的问题和挑战,如设备成本、用户体验、数据安全等,并积极寻求解决方案,以推动VR和AR技术的健康发展。这些技术的应用,将进一步拓展人机交互的边界,为人类带来更加便捷、高效和智能的生活方式。与传统的命令行界面相比,GUI采用了图形化的操作方式,使得用户可以通过鼠标、键盘等输入设备直接操作屏幕上的图形对象,如窗口、按钮、菜单等,来完成各种任务。

2024-05-06 17:44:49 1412 1

原创 颠覆传统:机器人与AI大模型的结合,开启智能自动化的黄金时代!

大模型在自然语言处理领域的应用显著提升了机器人的理解和交互能力,使其能够自动解析复杂任务并生成控制代码,减少了对人工编程的依赖,从而加快机器人对新任务的适应和执行速度。此外,其零样本和少样本学习能力使机器人能够在缺乏大量特定数据的情况下迅速适应新环境和任务,适用于频繁变化的场景如商业服务和工业生产线,提高了系统的灵活性和应用范围。未来,随着大模型技术的不断进步和机器人应用需求的进一步明晰,我们预期会看到更多创新的解决方案,这些解决方案将使机器人技术更加智能化和自动化,从而在更广泛的实际应用中展现其价值。

2024-04-28 11:07:35 758

原创 AI Agent新对决:LangGraph与AutoGen的技术角力

个人认为这个“Graph”框架使其在构建更复杂和更有见地的工作流程时更具直观性和更好的开发体验,通过对“Graph”的定义,可以对一个 LLM 应用的处理过程进行非常细节的编排设计,从而满足大量复杂场景的 AI Agent 产业应用落地。当然,这一特征也是可选的,如果你不需要要时,就可以选择完全自动的模式。对于简单的问答系统,LCEL都能够提供快速且准确的服务,然而当面对一些更为复杂的任务时,就显得力不从心,因此需要一个具备更精细控制能力的框架来支持更复杂场景的LLM应用,它就是LangGraph。

2024-04-25 10:52:13 2584

原创 【论文精读】让智能体更聪明的LTC框架

然而,对于GSM8k数据集,由于GPT3在处理数学问题方面的表现不足,导致正面例子稀缺,所以改用GPT4。在近期的LLM研究进展中,越来越多的实验探索是围绕着拟人智能体展开的,除了提示(Prompt)的设计,还关注如何利用外部环境中语言反馈和非语言奖励信号来训练大模型智能体。例如:在多人角色扮演桌游中,玩家交互中产生了大量的语言数据,同时游戏中会有明确的非语言奖励信号(比如胜利或失败),现有方法中,都是使用语言数据进行指令微调,而奖励信号仅用作过滤标准,用于筛选用于指令微调的数据,而不是强化学习的目标。

2024-04-23 14:29:32 1108

原创 LLM推理加速,如何解决资源限制与效率挑战

此外,不同的模型或模型的不同部分可能需要不同大小的显存块,使得难以找到合适的连续空间来满足某些大块内存需求。由于模型的权重是恒定的,而被激活的张量只占GPU内存的一小部分,因此KV缓存的管理方式对于确定最大批次大小至关重要,如果管理不善,KV缓存内存会极大的限制Batch Size,进而限制LLM的吞吐量。这种显存碎片化会降低显存的整体使用率,使得实际可用的显存可能不足以支持大模型的运行,从而会增加模型的推理或训练时间,并限制了可以加载到显存中的模型大小,因为大模型需要连续的大块显存空间。

2024-04-19 17:34:27 1030

原创 深入浅出:大模型产业链的全景解码

有许多团队在大模型产业中都会尝试挤进模型训练的圈子,但在经过不断的尝试之后,一些团队明确了自己在大模型产业链中的定位,选择转向产业链中的其他组成部分,通常是更加下游的位置。开源的模型当中,虽然很多模型都在评测中得到了超过LLaMA2的评分,但LLaMA(羊驼)系列模型仍然是众多开源模型的比较标准,对标的对象,表现出人们对LLaMA系列模型的信任程度,展现出LLaMA系列在行业的影响力。首先,中国市场对于AI和大模型的应用有着庞大的需求和快速增长的用户基础,这为大模型应用提供了广阔的市场空间。

2024-04-01 14:58:34 1241 1

原创 AI Native应用中的模型微调

模型微调的性能来源于数据质量、模型规模、数据数量和模型训练策略等因素,每项因素都有助于微调性能的提升,但这些因素如何组合更好的提升模型性能需要进一步探索。在理想情况下,从头开始训练可以产生最高质量的结果,由于模型是根据特定用例的数据进行训练,幻觉的可能性几乎为零,并且输出的准确性也是很高的。Prompt Engineering的方式是一种相对来说容易上手的使用大模型的方式,但是通常大模型的实现原理,都会对输入序列的长度有限制,Prompt Engineering 的方式会把Prompt搞得很长。

2024-03-20 17:08:20 800

原创 OpenAI的GPT已达极限,更看好AI Agent

紧接着,2022年ChatGPT-3及3.5的发布,以及随后ChatGPT的火爆流行,为AI Agent在大模型时代的发展提供了新的机遇。虽然目前这些Agent主要处理较简单的任务,但在大型语言模型的支持下,它们未来将拥有更强大的能力,解决日常生活中的各种问题,成为每个人量身定制的私人助理。从长远来看,AI Agent将会形成更深层次的智能连接,但目前AI Agent的技术尚未成熟,还需要一定的时间发展,不过Agent时代若是已经正在赶来,那么在接下来的几年里,它将彻底改变我们的生活方式,让我们一同期待。

2024-03-20 17:07:02 1270 1

原创 打造完美AI对话:12个超实用Prompt框架

● 迭代和改进:一些框架(如B.R.O.K.E和E.R.A)提到了实验和改进(Evolve、Experiment),这表明在使用ChatGPT时,可能需要通过不断的尝试和调整来优化Prompt,以获得更好的结果。这两个案例展示了如何根据不同的需求和情境,使用B.R.O.K.E和T.R.A.C.E框架来构建有效的Prompt。在企业环境中,T.R.A.C.E.框架可以用于自动化客户服务查询的处理,通过提供明确的任务定义和上下文,确保ChatGPT能够准确地理解并回应客户的需求。

2024-03-15 10:15:02 1262

原创 北大最新综述精读:RAG在AIGC中的前世今生,覆盖300篇论文!

©作者|Haoyang来源|神州问学如果你对这篇文章感兴趣,而且你想要了解更多关于AI领域的实战技巧,可以关注「神州问学」公众号。在这里,你可以看到最新最热的AIGC领域的干货文章和前沿资讯。引言:人工智能生成内容(AIGC)的不断发展得益于模型算法、可扩展的模型价格以及大规模的高质量数据集的发展。但它面临重重挑战,比如维护实时知识、长尾知识(发生频率低但占比大的知识)、数据泄露风险以及训练和推理所需的高成本。而RAG(Retrieval-Augmented Generation)检索生成增强正在成为解决这

2024-03-13 11:28:45 677

原创 大模型时代企业知识全生命周期管理解决方案

非结构化数据的提取和存储常见有两种,一种从中知识萃取存储进SQL或者知识图谱这种高度结构化的数据形式,这其中涉及很多的NLP算法,比如信息抽取,实体链接,知识融合等。比如企业一些信息系统(如OA系统、ERP系统等)中文档多以表单(如办文单)的形式进行流转,需要办理的文档通常作为表单的附件,传统做法中借助表单信息或者简单的文件标题等元数据加以检索的做法是低效的,导致数据开发利用不足。这一层中,一方面,针对企业中的不同系统,要整合不同终端数据,打破数据孤岛,对数据进行统一存储管理,实现数据的多源融合。

2024-03-08 10:40:55 1162

原创 PC部署大模型实测思考

随着新一代处理器的推出,个人计算机的AI性能和应用范围已迎来历史性的飞跃。展望未来,个人计算机的AI能力提升将会促进新一代软硬件解决方案的出现,推动AI技术的普及,使得更多的个人和小型企业能够利用强大的AI工具来解决实际问题、创造新的价值。可以预料的是,在PC上部署的大模型同企业提供的API在性能、效果等方面会存在一定差距,但这并不会掩盖本地部署的价值。随着专门为AI计算设计的硬件变得更加普及并集成到消费级PC中,本地与基于云的模型性能之间的差距将缩小,使得更复杂的模型能够在PC上高效运行。

2024-03-06 11:28:34 1246 3

原创 从理论到落地,大模型评测体系综合指南

1956年夏,“人工智能” 这一概念被提出。距今已有近70年的发展历史。中国科学院将其划分为六个阶段:起步发展期(1956年—1960s),反思发展期(1960s-1970s),应用发展期(1970s-1980s),低迷发展期(1980s-1990s),稳步发展期(1990s-2010),以及蓬勃发展期(2011-)。真正的大模型历史还要从2006年Deep Learning首次在Science上发表开始,然而在2012年之前,大模型的探索与学习的关注度并不是很高。直到2022年11月,OpenAI推出了搭

2024-03-01 15:01:49 1409

原创 解码Transformer: 自注意力机制和TA的优化策略

注意力机制自从2014年被正式提出后,逐渐成为了NLP中应用最广泛的设计。借助简单而又变幻莫测的Attention机制,一系列横扫SOTA的模型被提出。自注意力机制(Self-Attention),允许序列中的标记相互交互,并计算输入和输出序列的表示,成为了大语言模型主流架构Transformer的关键组成部分。Transformer 结构中,自注意力机制的时间和存储复杂度与序列的长度呈平方的关系,因此占用了大量的计算设备内存和并消耗大量计算资源。因此,如何优化自注意力机制的时空复杂度、 增强计算效率是大语

2024-03-01 14:56:36 1312

原创 sora会是AGI的拐点么?

OpenAI的Sora项目的成功,首先需依托海量的视频数据和强大的算力(这一点在报告中未做太多的披露),同时Sora博取众家之长,率先将扩散模型、transformer、隐式时空块三者结合应用于视频生成领域,并在此基础上依托自身积累的GPT4、DALL.E等领先技术的加持,大胆创新,才有了呈现在世人面前的这份惊艳的报告。与之前的其他工作相比,通过巧妙的引入结合时空块的方法,SORA 的自编码器不仅能在空间上压缩图像,还能在时间上压缩视频长度,同时对于视频的长宽比、分辨率、时长还保持了一定的灵活性。

2024-03-01 11:15:55 1242 1

原创 AI医疗系列三:AI大模型如何辅助临床试验患者匹配

如近期,为了尝试大语言模型能否帮助患者和医生在海量的临床试验中找到合适的匹配,美国国立卫生研究院(NIH)的研究人员提出了一种基于大语言模型的方法,利用大语言模型进行患者-试验匹配,名为TrialGPT [2]。但是临床试验的结果会受到多种客观因素的影响,其中至关重要的一点是试验患者的匹配。如图2的c所示,在为具体患者得到其所有患者-试验对的相关性分数和合格分数后,TrialGPT便可以依据这两个指标,为每个患者排序出最适合的临床试验,或者为患者排除掉一些严重不符合的临床试验。

2024-02-28 15:15:44 602 1

原创 To B最容易落地的Agent场景(一):DataAgent

而非侵入式一般依赖于特殊的架构,我们会在后面讨论。DataAgent的能力本质上比较依赖大模型的自然语言转API/SQL/代码的能力,除了对模型进行专门优化及加入提示工程等方式,在2B场景下,也有一些可以通过基于字段和API的优化方案(具体参考与指标平台/API的交互),在实际实施过程中,还需要根据实际场景、复杂度和可靠性做出更综合的评估。数据分析与商业智能(BI)在中大型企业的日常运营中的重要性毋庸置疑,无论是基本的财务数据分析,还是涵盖了对复杂的客户和运营数据进行深入洞察的需求,都需要借助专业的工具。

2024-02-23 14:11:37 1078 1

原创 AI误导游戏——LLM的危险幻觉

在法律等行业,这种幻觉的潜在后果可能是灾难性的。例如,较弱的模型架构(如早期的RNN)可能导致严重的幻觉问题,尽管在当前的大模型中,这种情况较少见。同时,提高训练数据的质量和多样性也至关重要,以确保数据在文化、语言和地域上的广泛覆盖,并增加少数群体的代表性,这有助于提升模型的准确性和鲁棒性。随着谷歌发布了他们的Gemini模型,他们使用BSChecker的自动检测框架对Gemini进行幻觉检测,并以GPT-4作为声明抽取器和幻觉检测器,按照无上下文场景下的矛盾比例排名,得到的结果与Gemini报告一致。

2024-02-21 17:53:38 918

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除