大模型(Foundation Model) 内容分享
文章平均质量分 89
目前Foundation Model或者是大模型,特别地火,接下来介绍什么是大模型,大模型的基本概念;接着看看大模型的实际作用,然后基于这些实际作用,我们简单展开几个应用场景。最后就是介绍支持大模型训练的AI框架。
之乎者也·
机车疾驰在路上,代码飞舞在指尖,热血与逻辑交织,创造属于我的数字世界。
展开
-
DevOps 内容分享(十):在大模型下重新定义的DevOps
这种合作通过自动化软件开发、测试、部署等流程来实现,目的是加快软件交付的速度,同时保持高水平的可靠性和安全性。在传统的IT组织结构中,开发、运维和质量保障通常是分离的部门,这导致了效率低下和协作障碍。DevOps运动正是针对这些问题,推动了一个更加融合的工作模式。它强调自动化和持续集成/持续部署(CI/CD)实践,使软件开发和运维活动能够无缝地结合在一起。DevOps的关键要素包括:1.:自动化构建、测试、部署等环节,减少手动操作,提高效率和准确性。2.原创 2024-02-09 08:34:34 · 1041 阅读 · 0 评论 -
AIGC内容分享(二):全球大模型技术与应用分析
这篇文章主要阅读者是产品经理、业务负责人、AIGC核心参与者等。现在AIGC技术发展太快,每天都有不同的变化。刚才我看Google发布的Gemini多模态能力,着实被惊喜(吓)到了:AI可以看图说话、理解和推理、预测事情的发展动态,简直无所不能。所以这篇文章是想站在2023年底这个节点,系统性梳理下AIGC的技术现状和行业应用,方便我们对AIGC技术、产品和商业有个全局的理解。警示: 不论行业热度如何,企业AIGC布局始终需要保持理性和克制。原创 2024-01-09 23:19:53 · 1615 阅读 · 0 评论 -
AI 内容分享(三十七):AI大模型时代,企业如何构建数据智能基础设施?
冯森指出,“面向领域模型的全链路闭环的多模态社区,滴普科技DEEPNOVA技术社区支持模型训练数据集、领域场景精调模型、推理加速和小型化,让各种基础通用大模型在企业服务行业落地具备了完整的工具链体系,同时在企业应用推理端吞吐性能提升10倍+,大幅度降低了企业应用大模型的成本。数据服务与业务相关,将基于专家经验形成的规则或者机器模型学习的结果,以及结合主动元数据,用在数据质量监控以及优化改进数据的准备过程(如集成流程或者引擎优化),如元数据推荐、流程推荐、资产推荐、建议推荐、执行计划推荐、计算引擎推荐等。原创 2024-01-21 20:43:59 · 952 阅读 · 0 评论 -
AI 内容分享(二十):人工智能基础-大模型与LLM
生成式AI能让航空公司根据客户提供的数据创建量身定制的沟通话术,为客户提供个性化的Offer选项、提升客户出行体验及满意度。挑战则包括考虑新技术对老年人群的友好性,确保AI生成的内容,特别是承诺是可实现的,避免误解和一本正经的胡说八道。由于这种规模的模型需要大量的内存和计算资源,通常只有拥有高端硬件和专业知识的组织才能承担部署和运行这样的模型。偏差是添加到加权输入之上的另一种类型的参数,它们用于调整输出,即使在所有输入都是零时也能得到一个非零的输出。这些向量是通过在模型的训练过程中学习到的嵌入层获得的。原创 2024-01-20 22:57:45 · 593 阅读 · 0 评论 -
AI 内容分享(十二):AI 大模型实践与实用技巧
如果 AI 模型输出的风格不符合你的要求,可以通过设置口吻、说明面向的人群等,让大模型按照你的意图来回答问题。,如果你使用 ChatGPT 官网,推荐 ChatGPT Prompt Plus 插件,支持自定义提示词,可以快速呼出,还支持提示词中定义变量,支持为提示词分组,在呼出提示词时选择或者填写即可进行提问,非常方便。在 AI 发展的当前阶段,我认为最重要的是学好提示词,掌握 AI 工具的最佳实践,才能成为最早一批灵活驾驭大模型来更好解决你生活和工作问题的人,才能在 AI 时代的早期取得一些竞争优势。原创 2024-01-20 10:58:01 · 1078 阅读 · 0 评论 -
AIGC内容分享(五十六):国产AIGC大模型盘点
访问网址:https://yiyan.baidu.com/welcome是否免费:直接提交等待测试即可!简介:文心一言是百度推出的一款全新一代知识增强大语言模型,文心大模型家族的新成员,能够与人对话互动,回答问题,协助创作,高效便捷地帮助人们获取信息、知识和灵感。它是一个基于飞桨深度学习平台和文心知识增强大模型,持续从海量数据和大规模知识中融合学习具备知识增强、检索增强和对话增强的技术特色。特色功能:文学创作商业文案创作数理推算中文理解多模态生成访问网址:https://tongyi.aliyun.com/原创 2024-01-18 09:25:05 · 1163 阅读 · 0 评论 -
大模型内容分享(二十八):mnn-llm: 大语言模型端侧CPU推理优化
在大语言模型(LLM)端侧部署上,基于 MNN 实现的 mnn-llm 项目已经展现出业界领先的性能,特别是在 ARM 架构的 CPU 上。目前利用 mnn-llm 的推理能力,qwen-1.8b在mnn-llm的驱动下能够在移动端达到端侧实时会话的能力,能够在较低内存(原创 2024-01-18 11:18:33 · 2695 阅读 · 0 评论 -
大模型内容分享(二十七):2024,比大模型更火的是什么?
此外,相关的AI初创公司也摩拳擦掌,AI原生应用如雨后春笋般冒出,渴望复制OpenAI的成功,而巨头们也乐于押注具备独角兽潜质的初创公司,谋求双赢。随着ChatGPT的横空出世,有名有姓的互联网玩家纷纷下场,围绕大模型做起了文章,国内已发布二三百个大模型,“白菜化”的趋势肉眼可见。譬如,百度推出灵境矩阵平台,吸引第三方开发者入驻,开发各式各样的插件,通过插件生态的繁荣,曲线实现AI生态的繁荣。这么一来,开发者的入局门槛降低,而平台也可以把握应用的水准,避免同质化竞争,更为重要的是可以进行“赛马”。原创 2024-01-18 11:17:33 · 891 阅读 · 0 评论 -
大模型内容分享(二十六):大模型时代,如何完成IDP智能文档处理领域的OCR大一统?
随后,解码器将调整后的隐藏特征转换为特定任务的输出图像。大语言模型能够理解自然语言文本,并具备上下文理解的能力,在文档识别分析应用中,将文档理解相关的工作交给大语言模型,自动进行篇章级的文档理解和分析,可以帮助系统更好地理解文档内容,包括上下文中的关系、实体识别、情感分析等。虽然GPT4-V为代表的多模态大模型技术极大的推进了文档识别与分析领域的技术进展,但并没有完全解决图像文档处理领域面临的问题,还有很多问题值得我们研究,如何结合大模型的能力,更好的解决IDP的问题,值得我们做更多的思考和探索。原创 2024-01-18 11:14:52 · 1503 阅读 · 0 评论 -
大模型内容分享(二十五):大模型最全八股(十)
层归一化 Layer Norm 在 大语言模型 LLMs 中的不同位置 有什么区别么?如果有,能介绍一下区别么?在大语言模型(Large Language Models)中,Layer Norm(层归一化)可以应用在不同位置,包括输入层、输出层和中间隐藏层。这些位置的归一化有一些区别:输入层归一化:在输入层应用 Layer Norm 可以将输入的特征进行归一化,使得输入数据的分布更加稳定。这有助于减少不同样本之间的分布差异,提高模型的泛化能力。原创 2024-01-09 23:00:22 · 1098 阅读 · 0 评论 -
大模型内容分享(二十四):大模型最全八股(九)
层归一化 Layer Norm 在 大语言模型 LLMs 中的不同位置 有什么区别么?如果有,能介绍一下区别么?在大语言模型(Large Language Models)中,Layer Norm(层归一化)可以应用在不同位置,包括输入层、输出层和中间隐藏层。这些位置的归一化有一些区别:输入层归一化:在输入层应用 Layer Norm 可以将输入的特征进行归一化,使得输入数据的分布更加稳定。这有助于减少不同样本之间的分布差异,提高模型的泛化能力。原创 2024-01-09 22:52:34 · 1003 阅读 · 0 评论 -
大模型内容分享(二十三):大模型最全八股(八)
低秩适应的目标是通过将语言模型的参数矩阵分解为低秩近似,来减少模型的复杂度和计算资源的需求。低秩适应减少了参数量:LoRA微调使用低秩适应方法对原模型的参数进行分解,将原始的参数矩阵分解为较小的矩阵的乘积形式。合并后的模型将包含原始模型的权重信息,同时也融入了低秩适应的优化,从而在减少计算和存储开销的同时保持模型性能。初始低秩适应:首先,对大规模语言模型的参数进行低秩适应。通过自适应的低秩适应方法,AdaLoRA能够根据模型的性能和计算需求进行灵活调整,从而进一步减少大型语言模型的计算和存储开销。原创 2024-01-09 18:41:31 · 566 阅读 · 0 评论 -
大模型内容分享(二十二):大模型最全八股(七)
综上所述,P-tuning v2的思路是通过自动化指示语句生成、多样性增强机制、模型结构和优化改进,以及面向特定任务和领域的优化,来提升生成模型的性能和应用范围。通过针对特定任务和领域进行优化,设计适应性更强的指示语句生成机制和模型结构,P-tuning v2可以适用于不同的应用场景,满足不同任务和领域的需求。P-tuning v2可以通过引入自动化的指示语句生成和优化方法,如基于强化学习的自动指导生成、迁移学习等,来减少人工设计和调整的工作量,提高任务的效率和可扩展性。原创 2024-01-09 18:33:58 · 457 阅读 · 0 评论 -
大模型内容分享(二十一):大模型最全八股(六)
位置编码是一种用于在序列数据中为每个位置添加位置信息的技术。在自然语言处理中,位置编码通常用于处理文本序列。由于传统的神经网络无法直接捕捉输入序列中的位置信息,位置编码的引入可以帮助模型更好地理解和处理序列数据。在Transformer模型中,位置编码通过为输入序列中的每个位置分配一个固定的向量来实现。这些向量会与输入序列中的词向量相加,以融合位置信息。位置编码的设计目的是使模型能够区分不同位置的输入。在Transformer模型中,使用了一种特殊的位置编码方式,即正弦和余弦函数的组合。原创 2024-01-09 17:44:57 · 956 阅读 · 0 评论 -
大模型内容分享(二十):大模型最全八股(五)
位置编码是一种用于在序列数据中为每个位置添加位置信息的技术。在自然语言处理中,位置编码通常用于处理文本序列。由于传统的神经网络无法直接捕捉输入序列中的位置信息,位置编码的引入可以帮助模型更好地理解和处理序列数据。在Transformer模型中,位置编码通过为输入序列中的每个位置分配一个固定的向量来实现。这些向量会与输入序列中的词向量相加,以融合位置信息。位置编码的设计目的是使模型能够区分不同位置的输入。在Transformer模型中,使用了一种特殊的位置编码方式,即正弦和余弦函数的组合。原创 2024-01-09 16:55:56 · 1126 阅读 · 0 评论 -
大模型内容分享(十九):大模型最全八股(四)
此外,引入更复杂和强大的生成模型,如深度神经网络和注意力机制,可以捕捉更多的语义信息和上下文关联,进一步提高生成结果的准确性。减少人工设计和调整的工作量:使用P-tuning,可以通过设计明确的指示语句来指导模型生成结果,而不需要进行复杂的输入设计和调整。例如,可以使用基于强化学习的方法,在给定任务需求和生成模型的情况下,自动学习生成合适的指示语句。P-tuning v2可以通过引入更加灵活和智能的指示语句生成机制,使得指示语句更准确地表达任务的要求和关键信息,从而提高生成结果的符合度。原创 2024-01-09 15:21:02 · 1167 阅读 · 0 评论 -
大模型内容分享(十八):大模型最全八股(三)
查询内容:根据文档的特点和领域知识,确定用户可能会查询的内容。总之,通过领域特定训练、增加领域知识、优化检索算法、数据增强和样本平衡、引入外部知识库以及收集用户反馈和迭代优化等方法,可以改进基于LLM和向量库的文档对话在垂直领域中的表现。微调和优化:使用预训练的模型作为起点,通过在特定任务上进行微调和优化,使模型能够更好地理解query和context,并生成更准确、连贯的response。评估和反馈:定期评估模型的性能,使用一些评估指标,如BLEU、ROUGE等,来衡量生成的response的质量。原创 2024-01-09 13:33:55 · 1169 阅读 · 0 评论 -
大模型内容分享(十七):大模型最全八股(二)
通过指令微调,可以在大模型的基础上,使用特定任务或领域的数据进行微调,使模型更好地适应目标任务的特点。与之前的SFT操作不同,这次的目标是在特定的监督任务上进行微调,因此选择基座模型时需要考虑任务的性质和数据集的特点。因此,知识注入是在预训练阶段进行的,预训练模型通过大规模通用数据的训练,学习到了丰富的语言知识和表示能力,为后续的微调阶段提供了基础。通过指令微调,可以利用大模型在通用数据上的预训练知识,结合少量特定任务数据进行微调,从而在数据有限的情况下获得更好的性能。原创 2024-01-09 12:07:51 · 893 阅读 · 0 评论 -
大模型内容分享(十六):大模型最全八股(一)
LLM(Large Language Model,大型语言模型)是指基于大规模数据和参数量的语言模型。具体的架构可以有多种选择,以下是一种常见的大模型LLM的架构介绍:Transformer架构:大模型LLM常使用Transformer架构,它是一种基于自注意力机制的序列模型。Transformer架构由多个编码器层和解码器层组成,每个层都包含多头自注意力机制和前馈神经网络。这种架构可以捕捉长距离的依赖关系和语言结构,适用于处理大规模语言数据。原创 2024-01-09 11:32:02 · 679 阅读 · 0 评论 -
大模型内容分享(十五):大语言模型(LLM)全面调研
通过RLHF,模型可以从反馈中学习,对于以后的查询,LLM有更大的机会生成更友好和详细的响应。微软的Bing使用ChatGPT,但与此模型不同的是,Bing使用互联网和实时数据(而ChatGPT的响应包括截至2021年的数据)。接下来是可解释性问题。通过开源模型,Meta旨在让企业、初创公司、企业家和研究人员能够使用其开发的工具,这些工具的开发规模是他们自己难以构建的,并得到他们可能无法获得的计算能力的支持,这将打开一个充满机遇的世界让他们以令人兴奋的方式进行实验和创新,并最终从经济和社会上受益。原创 2024-01-09 09:50:29 · 1307 阅读 · 0 评论 -
大模型内容分享(十四):大模型产品经理高频面试题
OpenAI的语言类大模型主要有GPT系列,包括GPT-1、GPT-2、GPT-3、GPT-3.5和GPT-4。最简单的提示工程方法就是通过输入一些类似问题和问题答案,让模型参考学习,并在同一个prompt的末尾提出新的问题,zero-shot可以理解为:不给大模型任何的提示,直接提问,让大模型自己做决策。我还剩下多少个苹果?,即根据任务的难度和复杂度,选择一个适合生成代码的人工智能模型,例如GPT-4或Codex设计有效的提示,即使用合适的词语、短语、符号和格式,来激发模型的生成能力和创造力。原创 2024-01-09 00:37:41 · 2310 阅读 · 0 评论 -
大模型内容分享(十三):大模型应用探索——企业知识管家
它借助通识的大语言模型,加上企业的私域数据,进行组合微调,形成企业自己专属的大语言模型。传统大模型应用往往构建复杂,知识管家基于九章云极DataCanvas自己的 FS 能力,构建了自己的大模型 IDE,能够提供丰富的组件和工具,通过简洁的应用构建方式,把构建的模版发布成智能应用的 Agent。为了保证答案生成过程的安全可信,九章云极DataCanvas基于通用的大语音模型,对召回的数据做提示词的限定,并结合企业的私域数据对大模型进行垂类知识的微调,再加上风向管控机制,从而保证答案生成的高精度。原创 2024-01-08 17:24:29 · 1195 阅读 · 0 评论 -
大模型内容分享(十二):图解大语言模型:从操作系统的视角
如今的大语言模型 (LLM) 可以用“日日新,又日新”来形容了,不到五年,发展速度和规模相当惊人。LLM 的进化树[1]基于的模型(非灰色颜色)和其中的(蓝色)占明显的优势开源模型(实心块)和闭源模型(空心块)都在迅速发展Google、OpenAI 和 Meta 占据模型数量的第一梯队(右下角的堆叠条形图)Andrej Karpathy 将 LLM 类比于操作系统,所谓的。原创 2024-01-08 17:07:47 · 1456 阅读 · 0 评论 -
大模型内容分享(十一):大模型高效微调(PEFT)方法大全
结构简洁明了,在Transformer的前馈层后加入上图中右边所示的Adapter层,Adapter是一个bottleneck结构,先把d维特征映射为m维,然后通过一个非线性层,最后映射回d维特征,m原创 2024-01-08 15:57:56 · 2624 阅读 · 1 评论 -
大模型内容分享(十):大模型应用于数字人
数字人目前还缺乏一个相对统一的定义, 有人把人类的数字孪生体定义为数字人,有人把虚拟世界中具有人类行为的实体定义为数字人,有人将3D人体模型称为数字人,例如,韩国学界对数字人的定义是:用数字化技术,打造具有逼真人类长相、语言、动作姿态、身体特征的虚拟3D 人体模型。数字人能够感知不同环境, 根据人的需求形成"化身" 形象。对应开发者而言,“避风港原则”是一种针对网络服务提供者的责任豁免原则,具体指网络服务提供者接到权利人的通知后,根据法律规定断开与侵权的作品、表演、录音录像制品的链接的,不承担赔偿责任。原创 2024-01-08 15:51:06 · 1476 阅读 · 0 评论 -
大模型内容分享(九):Attention机制
否则,信息将被局限在本地处理,使感受野变小,并且在我们的实验中显著降低性能。Neighborhood Attention 在概念上类似于独立的自注意力(Stand Alone Self-Attention, SASA),两者都可以通过在对上进行栅格扫描滑动窗口操作来实现。Bilinear Attention(Bi-Attention)采用 Attention-in-Attention(AiA)机制来捕捉二阶统计信息:外部通道注意力向量是用内部通道注意力的输出计算得出的。原创 2024-01-08 15:11:29 · 1417 阅读 · 0 评论 -
大模型内容分享(八):知识抽取简述
计算方法:tfidf(t, d, D) = tf(t, d) * idf(t, D),其中tf(t, d) = log(1 + freq(t, d)), freq(t,d) 表示候选词 t 在当前文档 d 中出现的次数,idf(t,D) = log(N/count(d∈D:t∈D)) 表示候选词 t 出现在多少个文档中,用来表示一个词语的稀有度,假如一个词语只在一篇文档中出现,说明这个词语比较稀有,信息量更丰富。每个节点都是一个单词,边表示单词之间的关系,通过定义单词在预定大小的移动窗口内的共现来构造边。原创 2024-01-08 14:29:46 · 2226 阅读 · 0 评论 -
大模型内容分享(七):大模型应用设计
技术不是万能的,但没有技术却可能是万万不能的,对于大模型可能也是如此。基于大模型的应用设计需要聚焦于所解决的问题,在自然语言处理领域,大模型本身在一定程度上只是将各种NLP任务统一成了sequence 到 sequence 的模型。利用大模型, 我们是在解决具体的生产和生活中的问题,产品和技术上的设计仍然不可或缺。那么,如果大模型正在重新构建软件工程的未来,我们是否应该遵循一些基本原则呢?原创 2024-01-08 13:09:45 · 1029 阅读 · 0 评论 -
大模型内容分享(六):大模型时代的数学基础
一个范畴由 a universe ofobjects, andmorphismsbetween them, 注意故意用universe而不是 asetof objects的原因是为了避免罗素悖论,同时我们给出一个小范畴(small category)的定义:smallsmall setofobjectsand asmall setofmorphisms而这些对象(objects)和态射(morphisms)还需要满足如下条件对于每个对象,存在唯一的恒等态射(identity morphism)原创 2024-01-08 13:00:57 · 1661 阅读 · 0 评论 -
大模型内容分享(五):知识图谱与大模型:微调 Vs. RAG
大型语言模型 (LLM) 的第一波炒作来自 ChatGPT 和类似的基于网络的聊天机器人,相信在座的各位都并不陌生了,甚至不少人也已经以不同的方式试用过它的功能,这些模型非常擅长理解和生成文本,但是也存在一些问题。LLM 的一大问题是所谓的知识截止。知识截止术语表明大模型不知道训练后发生的任何事件。例如,如果我们向 ChatGPT 询问 2023 年的事件,我们将得到以下响应。如果我们向大模型询问其训练数据集中不存在的事件,也会出现同样的问题。原创 2024-01-08 12:07:34 · 2391 阅读 · 0 评论 -
大模型内容分享(四):大语言模型分布式训练的量化分析与最佳实践,以 GPT-175B 为例
首先和大家分享下大语言模型的发展背景。过去的几年内,无论从数据量的维度还是从模型规模的维度,语言模型规模都扩大了非常多的数量级。随着数据量和模型规模的扩大,也面临着一些挑战。其中涉及的挑战主要可以分为两部分。首先是计算方面,这里给了一个来自于Megatron 论文的公式去计算一个模型训练时需要的计算 FLOPS,我们可以简单推算一下,GPT-3 175B 模型使用现在比较合理的 1.5T Tokens 数据量训练,大概需要 128 个 DGX A100 节点(*仅供技术交流使用),共计 1024 张 A10原创 2024-01-08 11:53:46 · 976 阅读 · 0 评论 -
大模型内容分享(三):从代数结构上看什么叫序
其实问题的本质是,人脑里并没有特殊的ALU,而我们如何利用大模型构建态射和范畴的基本属性来构建ALU,从而模型本身的逻辑推理能力,即基础神经元同构的基础上,如何实现逻辑推理等能力。这一期我们了解了一下偏序结构,如何让大模型会数数,然后简单的介绍了一些二元运算的算子和它满足的运算规律,初步了解了一下群,以及群这种代数结构定义的可逆运算和对称的关系。显然在很多场景下,范畴定义的态射如何来刻画这样的结构,如何利用群的代数结构构建相应的神经网络架构,而这样的架构如何通过强化学习的方式进行约束?原创 2024-01-08 11:25:47 · 815 阅读 · 0 评论 -
大模型内容分享(二):浮点运算——CPU 和 GPU 算力是如何计算的
算力最基本的计量单位是 FLOPS,英文 Floating-point Operations Per Second,即每秒执行的浮点运算次数。浮点运算其实就是带小数的加减乘除运算。举个例子:1.1+2.2 就是典型的浮点运算,估计你已经心算出结果是 3.3 了。不过对计算机来说,这个问题并不简单。我们知道,计算机是以 0 和 1 构成的二进制数字进行运算的,比如在基础的二进制里,1 就是 1,2 就变成了 “10”,3 是 “11”,这也带来一个问题:计算机能够处理的数字只有整数。原创 2024-01-08 10:27:53 · 3460 阅读 · 0 评论 -
大模型内容分享(一):卷积的原理
如果说分割的这个小矩阵左右两边是相反数的时候,两边的差别是最大的,不管最后相加的值是正的还是负的,绝对值下应该是最大的。途中最底下是我们的图片的RGB分层,再经过和filter相乘之后向上会卷积成一个点,那向上之后的Map1, Map2,... 原因是每一层都是一个不同的filter计算的结果,这里存在很多个filter, 然后分别计算产生了这样一个叠加层。卷积的操作是为了干什么呢?它的每一层都是一个不同的filter提取出来的,有这么多filter的原因则是每一个filter提取出来的特征都是不一样的。原创 2024-01-08 10:19:51 · 1079 阅读 · 0 评论