自然语言综合项目
文章平均质量分 89
远洋之帆
机器学习 人工智能 数学 数据可视化 机器人
展开
-
Agent让大模型从“解释问题”到“解决问题”
大模型要实现从“解释”问题到“解决”问题的跨越,就离不开Agent。目前Agent有两条实现路径:1.SOP+BOM,提前对解决问题流程抽取,根据问题调用相应处理问题流程2.设定奖励规则,用RL算法让Agent自主探索文章主要是介绍了SOP+BOM的agent实现路径。这条实现路径更可控更适合当前企业实际需要。结合当前市面的几款产品,提出了:基本能力、支持工具集、操作编辑性、持续开发能力,四个维度的差评测评标准;对几款产品做了测评评价。目前看产品都具备基本工作流编排能力、每个流程测试、追溯能力,都支原创 2024-07-23 16:21:52 · 1035 阅读 · 0 评论 -
如何训练出模型的推理规划能力
近期opanai对AGI做了等级划分;等级划分意味着AGI有了一个考核定义,有了升级打怪的评价指标。并给出了目前openai正处在第一级,即将达到第二级的论断。预计在一年或者一年半内实现第二级,可以完成基本问题解决任务的系统。文章下面部分会简单的介绍一下,如何从第一级进阶到第二级。可能的技术路线,对于第一级AGI实现路径已经有非常多的讨论,并且很多企业、团队也已经实现达到了openAI第一级的水准。也就是数第一级别的pretrain、sft、rlhf三阶段已经是一个事实的实现路径标准了。原创 2024-07-22 15:33:26 · 1047 阅读 · 0 评论 -
全同态加密在大模型应用中应用
假如我们拥有两条消息 𝑚0,𝑚1 的加密,分别为 𝑐𝑡0,𝑐𝑡1 ,展开来就是:我们可以注意到,如果我们把两条密文的两个部分各自相乘的话,我们就可以得到一个新的密文 𝑐𝑡^ :𝑐𝑡我们得到的结果恰恰就是原文 𝑚0+𝑚1 加在一起之后所对应的加密密文!这样的话,如果我们得到了两条加密算法的密文,我们就可以通过这样的方法得到密文的任意线性组合了。原创 2024-07-01 18:19:57 · 879 阅读 · 0 评论 -
解析大型语言模型的训练、微调和推理的运行时性能
这篇论文是截至目前为数不多的介绍大模型训练配套环境比对的论文,对于想要入门大模型训练同学是个不错的入门资料。比较了不同尺寸模型(比较常用的7、13、70b),在不同型号gpu、训练框架、推理框架数据。结合自己实际工作需要和论文给出的运行时数据分析,总结了下面几条:1.二次预训练最低硬件配置,如果想要自己做简单二次预训练(7、13、70B参数)最小8卡80g显存A1002.对于小规模sft对考虑PEFT做训练就可以,freezen fintune方法需要硬件还是较大3.FlashAttention对向原创 2023-11-22 12:06:14 · 3057 阅读 · 2 评论 -
Langchain知识点(下)
具体来说,系统将形成任务列表,从任务列表中拉出优先级最高的第一个任务,使用 OpenAI API 根据上下文将任务发送到执行代理并完成任务,一旦这些任务完成,它们就会被存储在内存(或者 Pinecone 这类向量数据库)中,然后,根据目标和上一个任务的结果创建新任务并确定优先级。在这个过程中,驱动任务的是三个不同作用的代理。执行器也负责处理多种复杂情况,包括处理代理选择了不存在的工具的情况、处理工具出错的情况、处理代理产生的无法解析成工具调用的输出的情况,以及在代理决策和工具调用进行观察和日志记录。原创 2023-11-06 15:01:51 · 823 阅读 · 0 评论 -
AGENTBENCH:评估LLMs作为代理的能力
本文介绍了如何构建智能代理评测集,并对智能代理能力进行了分类。文章提出了一个多维度的基准测试,名为AGENTBENCH,用于评估大型语言模型作为代理在多轮开放式生成设置中的推理和决策能力。文章对27个基于API和开源(OSS)的LLMs进行了广泛的测试,结果显示,尽管顶级商业LLMs在复杂环境中表现出强大的代理能力,但它们与OSS竞争者之间在性能上存在显著差距。文章指出,糟糕的长期推理、决策制定和指令遵循能力是开发可用LLM代理的主要障碍。在代码和高质量多轮对齐数据上进行训练可以提高代理性能。原创 2023-11-02 10:14:27 · 1669 阅读 · 0 评论 -
AGENTTUNING:为LLM启用广义的代理能力
这篇文章介绍了一种方法,可以让大型语言模型(LLM)具备在多种代理任务上表现出色的能力,缩小了开源和商业LLM在这方面的差距。该方法称为AgentTuning,它包括以下两个步骤:● 首先,构建了一个覆盖多种代理任务的数据集,称为AgentInstruct,它包含了1,866个经过验证的代理交互轨迹,每个轨迹都有一个人类指令和一个代理动作。● 然后,设计了一种指令调优策略,将AgentInstruct和通用领域指令混合起来,对LLM进行微调。作者使用AgentTuning对Llama 2模型进行了调优原创 2023-10-31 17:42:44 · 3273 阅读 · 0 评论 -
多模态的过渡态——latent modal
随着大模型的推进,单模态的大模型已经无法很好的满足现实工作的需要。很多科研团队和机构开始多模态的研究,多模态的几种机构在前面的文章已经介绍过,这部分不做过多介绍。最理想的多模态应该就是没有模态,单一的模型可以把各种的数据无差别的输入,根据控制需要可以生成出任何想要的输出结果,换句话说就是我们可以用一个模型对齐所有模态之间关系。要实现这样的目标至少是有三种架构:1.把各种模态输入/输出拉横,分区块设计每个部分对应模态,通过任务设计,让一种输入数据预测输出数据的值,通过足够多数据训练,让模型学习到模态之间对原创 2023-05-04 07:59:55 · 1245 阅读 · 2 评论 -
实现mini智能助理—模型训练
1.介绍了预训练大模型的训练流程是怎么样的2.介绍了常用的训练手段3.详细介绍了两种主流的预训练手段原理:promt、delta4.给了一个multi-gpu chatglm训练的例子原创 2023-03-29 13:59:53 · 6178 阅读 · 2 评论 -
动手做个mini智能助理--数据准备(2)
mini智能小助理,可以如何收集alignment数据。介绍了智能体自我迭代,自举能力的重要性。以及人在其中如何为机器自举提供动力原创 2023-03-19 11:04:34 · 152657 阅读 · 0 评论 -
Visual chatgpt多模态大模型的前菜
visual chat将会是多模态大模型一个过渡态,Gpt4以及他的后代一定会用集成电路的模式取代这个分立元器件组成的通用多模态模式。但是它的很多思路是值得我们学习的。原创 2023-03-12 21:35:24 · 5632 阅读 · 6 评论 -
让AI帮你工作(2)-如何阅读pdf论文
用chatgpt最快速的复现chatpdf原创 2023-03-08 23:06:33 · 2569 阅读 · 3 评论 -
生成模型技术发展过程
阐述了生成模型基本定义和各种技术的发展路径原创 2023-02-19 10:06:46 · 2064 阅读 · 0 评论 -
大模型相关技术综述
大模型相关技术综述原创 2023-02-15 22:30:06 · 10368 阅读 · 8 评论 -
设计策略--素材分析的一些思路
图理解维度物料特征维度包括七个方向:颜色、背景、结构、图、元素、字体、文、卖点特征 特征维度 二级特征维度 颜色包括 整体色彩倾向、主五色特征、主色色彩占比 背景 背景复杂度、背景纯净度 图 图片纯净度、图内容、主图元素特征 文 文案位置特征、文案面积特征、文案内容特征、内容语义、句式风格、句子结构原创 2021-10-05 10:10:41 · 770 阅读 · 0 评论 -
电商舆情细粒度情感分析(ABSA)
问题描述餐馆食物不错,但是环境不太容易让人放松惬意。{属性:食物 ;观点:不错 ;情感:正}{属性:环境;观点:不容易让人放松;情感:负}从一个评论句子中找出,用户评论了哪些方向、观点是什么、情感急性是什么。看起来是一个观点抽取+多分类的问题。解决思路解决这个问题主要有两大思路:1.联合模型一步解决 2.任务分成两步做联合模型解决好处:1.把问题当成一个整体,问题之间关联关系可以作为默认约束2.单一模型解决简单方便,使用者输出结果简单问题:...原创 2021-10-04 22:34:53 · 3224 阅读 · 5 评论