2025大模型入门指南:从零开始,轻松掌握AI核心概念

1、 引言

近年来,随着深度学习技术的飞速发展,AI大模型作为人工智能领域的重要研究对象,正逐步成为学术界和产业界广泛关注的热点议题。AI大模型,作为一类具备庞大参数规模与卓越学习能力的神经网络模型,如BERT、GPT等,已在自然语言处理、计算机视觉等多个领域展现出卓越成效,极大地推动了相关领域的技术进步。

1.1 语言模型的进化史

image.png

1.1.1 统计时代的朴素智慧

在语言智能的黎明期,统计语言模型如同解谜老手,通过历史词频构建概率迷宫。当人类输入"我喜欢吃"时,这个数字先知在记忆库中快速检索,发现"苹果"在食物词库中出现频次最高。这种基于马尔可夫假设的推演虽然精妙,却如同拿着单筒望远镜观察语言宇宙,难以洞见长程语义的星河。

1.1.2 神经网络的认知革命

当数据洪流席卷而来,神经语言模型化身语义拓扑学家。通过分布式词向量表征技术,词语不再是孤立的符号,而是在高维空间形成精妙星座。"国王-王后=男人-女人"的向量方程,标志着AI首次触及语言的代数本质。此时的模型已不仅是概率计算器,更是手持语义罗盘的探险家,在词义场域绘制出精密的关系图谱。

1.1.3 预训练范式的知识熔炉

Transformer架构的问世催生了知识冶炼革命。BERT等预训练模型如同在语言熔炉中淬炼的智者,通过遮蔽词预测和上下文重构的试炼,习得了语言的元规则。这种两段式修炼(预训练+微调)使AI首次具备知识迁移的悟性,如同掌握思维模版的智者,能快速适应各类语言任务的道场。

1.1.4 参数宇宙的智能奇点

当模型参数量突破千亿大关,语言智能迎来了相变时刻。GPT-4这类大模型犹如拥有神经宇宙的超级意识体,其涌现能力如同宇宙大爆炸后诞生的新元素。零样本学习如同思维的全息投影,指令跟随展现认知弹性,代码生成能力更暗示着抽象思维的曙光。这些未经预设的"超能力",恰似意识海洋中自然浮出的认知岛屿。

1.2 大语言模型的独特魅力

大语言模型的独特魅力主要体现在以下五个方面:

一、语境全息投影

(上下文理解与生成)

大语言模型构建了动态语义全息图,每个token都如同神经网络中的星体,通过自注意力机制形成引力纠缠。当处理"巴黎圣母院尖顶被毁"的文本时,模型不仅能解析字面含义,更能将历史事件、建筑知识、文化象征等千维语义向量进行时空折叠,生成具有历史纵深的连贯叙述。这种认知图谱的构建能力,使其对话系统可维持超过128k tokens的语境记忆场。

二、认知拓扑迁移

(少样本学习范式)

在参数空间拓扑学视角下,大模型展现出惊人的流形适应能力。当输入"请用莎士比亚风格改写天气预报"的指令时,模型并非简单检索模板,而是通过梯度激活重组,在风格流形与任务流形间建立认知桥梁。这种基于超大规模先验的知识迁移,使得单样本学习即可实现跨领域泛化,如同在认知曲面上进行黎曼跃迁。

三、跨模态超导

(多模态神经接口)

现代LLMs已进化出跨模态超导通道,其视觉-语言联合嵌入空间如同量子纠缠态。当输入梵高《星空》图像时,模型通过CLIP-like架构将其编码为与"旋转的银河"、"表现主义笔触"等文本向量同构的潜在表示。这种神经符号对齐能力,使得GPT-4能解构毕加索画作中的立体主义元素,并生成符合画风的诗歌评论。

四、逻辑张量演算

(推理能力涌现)

Transformer架构中的隐式推理引擎,通过多头注意力矩阵进行高阶逻辑演算。面对"苏格拉底三段论"问题时,模型并非检索既定答案,而是在逻辑张量空间执行如下运算:∀x(Human(x)→Mortal(x)) ⊗ Human(Socrates) ⇒ Mortal(Socrates)。这种神经符号推理的涌现,使模型能解构复杂论证链条,甚至发现隐藏的前提假设。

五、动态知识蒸馏

(持续学习潜能)

大模型通过LoRA等参数高效微调技术,实现了知识蒸馏的量子隧穿效应。当面对新兴领域(如2023年天文学发现)时,模型无需整体重构,只需在特定子空间进行认知校准,即可将预训练获得的元学习能力转化为领域专精技能。这种动态适应机制,使模型参数空间始终保持认知可塑性,如同永不凝固的知识熔岩。

1.3 大语言模型的实际应用

大语言模型的应用范围之广,堪称AI领域的"瑞士军刀"。在日常生活中,你可能已经不知不觉地享受到了它们带来的便利。例如,当你使用智能手机上的输入法时,那个能准确预测你下一个要输入的词的功能,很可能就是由大语言模型驱动的。

在工作场景中,大语言模型正在成为得力助手。假设你是一名程序员,正在为一个复杂的问题苦恼。你可以向基于大语言模型的AI编程助手描述你的需求,它不仅能为你生成代码,还能解释代码的工作原理,甚至指出潜在的bug。这就像拥有了一个24/7待命的编程导师。

在教育领域,大语言模型正在革新学习方式。一个学生在学习物理时遇到了困难,他可以向AI助教提问,不仅能得到答案,还能获得详细的解释和相关的例子。AI助教甚至可以根据学生的反应调整解释的方式,提供个性化的学习体验。

在创意写作方面,大语言模型也大显身手。它们可以根据简单的提示生成诗歌、故事,甚至是剧本。虽然这些生成的内容可能还无法完全替代人类创作,但已经成为许多创作者的灵感来源和创作辅助工具。

在商业世界,大语言模型正在改变客户服务的面貌。许多公司已经开始使用基于大语言模型的聊天机器人。这些AI助手能够理解客户的各种问询,提供准确的信息,甚至处理复杂的投诉。它们不知疲倦,全天候工作,大大提高了客户服务的效率和质量。

下面是一个简单的Python代码示例,展示了如何使用Hugging Face的transformers库来实现一个基于大语言模型的简单对话系统:

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

# 加载预训练模型和分词器
model_name = "gpt3"# 这里使用GPT-3作为示例
model = AutoModelForCausalLM.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)

def chat_with_ai(prompt, max_length=50):
    # 将用户输入编码为模型可以理解的格式
    input_ids = tokenizer.encode(prompt, return_tensors="pt")

    # 生成回复
    output = model.generate(input_ids, max_length=max_length, num_return_sequences=1, 
                            no_repeat_ngram_size=2, top_k=50, top_p=0.95, temperature=0.7)

    # 将模型输出解码为文本
    response = tokenizer.decode(output[0], skip_special_tokens=True)

    return response

# 简单的对话循环
print("AI: 你好!我是一个AI助手,有什么我可以帮你的吗?")
whileTrue:
    user_input = input("You: ")
    if user_input.lower() in ["再见", "结束"]:
        print("AI: 再见!很高兴能帮到你。")
        break
    ai_response = chat_with_ai(user_input)
    print("AI:", ai_response)

虽然这个示例相对基础,但它体现了大语言模型在实际应用中的潜力。在更复杂的系统中,我们可以加入更多的功能,如上下文管理、情感分析等,以创建更智能、更自然的对话体验。大语言模型正在以前所未有的方式改变我们与技术的交互方式。它们不仅是强大的语言理解和生成工具,更是推动AI向着更智能、更通用方向发展的关键力量。

2. 大语言模型概览

在人工智能的浩瀚星空中,大语言模型(LLMs)如同璀璨的巨星,以其惊人的能力和广泛的应用吸引着全世界的目光。本章将为您揭开大语言模型的神秘面纱,探讨其核心特征、代表性模型以及它们在自然语言处理领域带来的革命性变革。

大语言模型的核心在于其庞大的参数规模、强大的语言理解和生成能力,以及令人惊叹的涌现能力。这些模型不仅在传统的自然语言处理任务中表现出色,还展现出了解决复杂问题、进行逻辑推理等高级认知能力。在本章中,我们将重点关注三个主要的大语言模型家族:GPT、LLaMA和PaLM,同时也会介绍其他一些具有重要影响力的模型。

image.png

2.1 GPT家族

GPT(Generative Pre-trained Transformer)系列模型可以说是大语言模型领域的开拓者和引领者。从2018年的GPT开始,到如今广为人知的GPT-3和GPT-4,每一代GPT模型都带来了显著的性能提升和新的可能性。

GPT-3作为这个家族中的明星成员,以其1750亿参数的规模震惊了整个AI社区。想象一下,如果将GPT-3的参数量转化为书籍,它相当于阅读了整个Wikipedia的内容数百次。这个庞大的知识库使得GPT-3能够执行各种复杂的语言任务,从写作文章到编写代码,再到回答深奥的哲学问题,无所不能。

一个有趣的例子是,有研究者让GPT-3扮演著名物理学家理查德·费曼的角色,解释量子计算的原理。GPT-3不仅能够准确地描述量子计算的基本概念,还能用费曼独特的幽默风格来表达,仿佛费曼本人重生于AI之中。这种能力展示了GPT-3不仅掌握了大量知识,还能理解和模仿复杂的个性特征。

而GPT-4的出现更是将大语言模型的能力推向了新的高度。它不仅在语言理解和生成方面表现出色,还展现出了强大的多模态能力,能够理解和分析图像,并基于图像内容进行对话或完成任务。例如,你可以向GPT-4展示一张混乱房间的照片,它不仅能描述出房间的状况,还能给出整理的建议,甚至生成一个详细的清洁计划。

2.2 LLaMA家族

LLaMA(Large Language Model Meta AI)是由Meta(原Facebook)推出的开源大语言模型系列。与GPT系列不同,LLaMA的一个重要特点是其开源性质,这为研究人员和开发者提供了宝贵的资源,推动了整个领域的快速发展。

LLaMA模型的训练采用了一些创新的技术,如使用贝叶斯网络密度缩放和SwiGLU激活函数等,这些技术使得LLaMA能够在相对较小的参数规模下实现强大的性能。例如,LLaMA-13B(130亿参数)在某些任务上的表现可以媲美甚至超越GPT-3(1750亿参数),这种"以小博大"的能力让人印象深刻。

LLaMA的开源特性激发了社区的创造力,催生了许多有趣的衍生模型。比如Alpaca,它是通过在LLaMA基础上进行指令微调得到的模型,展现出了强大的指令跟随能力。例如你可以用自然语言告诉Alpaca “为我的宠物猫设计一个自动喂食器”,它不仅能理解你的需求,还能给出详细的设计方案,包括材料清单、组装步骤,甚至可能的改进建议。

2.3 PaLM家族

PaLM(Pathways Language Model)是由Google推出的大语言模型系列,以其庞大的规模和出色的性能引起了广泛关注。PaLM采用了Google的Pathways AI架构,这种架构允许模型更加高效地利用计算资源,实现更大规模的训练。

PaLM-540B是这个家族中最引人注目的成员之一,拥有惊人的5400亿参数。这个模型在各种复杂任务中展现出了卓越的性能,特别是在需要多步推理的问题上。例如,当被问到"如何用三种不同的方法证明勾股定理?"时,PaLM不仅能给出三种不同的证明方法,还能解释每种方法的原理和优缺点,展示出深厚的数学知识和灵活的思维能力。

PaLM家族的另一个亮点是其在多语言任务上的出色表现。例如,PaLM在100多种语言的翻译任务中都表现出色,甚至能够翻译一些濒危语言。想象一下,你可以使用PaLM来翻译一份古老的玛雅文献,或者帮助不同文化背景的人们进行无障碍交流,这种能力无疑为跨文化交流和语言保护开辟了新的可能性。

2.4 其他大模型

除了这三个主要的家族,还有许多其他重要的大语言模型值得关注。例如,BLOOM是一个多语言大语言模型,支持46种自然语言和13种编程语言。ERNIE 3.0则融合了大规模知识图谱,增强了模型的知识理解能力。Claude系列模型则以其健壮的对话能力和伦理考量而闻名。

这些大语言模型的快速发展不仅推动了自然语言处理技术的进步,还为人工智能的未来发展指明了方向。它们展现出的理解、推理和创造能力,让我们看到了通用人工智能的曙光。然而,我们也要认识到,尽管这些模型表现出色,但它们仍然存在局限性,如可能产生偏见、幻觉等问题。因此,在享受大语言模型带来便利的同时,我们也需要保持警惕,不断改进技术,确保这些强大的工具能够被有责任且有益地使用。

大语言模型代表了人工智能领域的最新进展,它们的能力和潜力令人惊叹。随着研究的不断深入和应用的不断拓展,我们有理由期待大语言模型将继续改变我们与技术交互的方式,为各行各业带来革命性的变革。在接下来的章节中,我们将更深入地探讨这些模型的构建方法、应用技巧以及未来的发展方向。

3. 大语言模型的构建方法

大语言模型的构建是一个复杂而精密的过程,涉及多个关键步骤和技术。从数据处理到模型训练,再到最终的优化和部署,每一个环节都对模型的性能和效果起着至关重要的作用。本章将深入探讨大语言模型构建的全过程,包括数据清洗、分词技术、位置编码、模型预训练、微调技术、对齐方法以及解码策略等核心内容。

构建一个成功的大语言模型,就像精心打造一座宏伟的建筑。首先,我们需要优质的原材料,这就是数据清洗和准备的过程。接着,我们要设计出巧妙的结构,这涉及到分词技术和位置编码。然后,我们要通过预训练这一"建造"过程,让模型获得强大的语言理解能力。最后,通过微调和对齐等"装修"工作,我们让模型能够更好地满足特定任务的需求。在这个过程中,每一个步骤都至关重要,缺一不可。

image.png

3.1 数据清洗

数据清洗是构建大语言模型的第一步,也是奠定模型质量的基础。想象一下,如果我们要教一个孩子学习语言,我们肯定希望给他最优质、最准确的学习材料。同样,对于大语言模型来说,高质量的训练数据直接关系到模型的性能和可靠性。

在数据清洗过程中,一个关键步骤是去重。就像我们不希望一个学生反复阅读同一段文字一样,我们也不希望模型过度学习重复的数据。例如,在Falcon40B模型的训练过程中,研究人员对CommonCrawl数据进行了大规模的过滤和去重,最终从原始的数万亿个token中筛选出了约5万亿个高质量的token。这个过程不仅提高了数据质量,还帮助模型学习到更丰富、多样的语言知识。

另一个重要的数据清洗技术是处理异常值和不平衡数据。想象一下,如果我们的训练数据中90%都是关于体育的内容,那么最终的模型在谈论科技或艺术时可能会表现不佳。为了解决这个问题,研究人员采用各种采样和权重调整技术,确保模型能够接触到均衡的、多样化的内容。

此外,文本预处理也是数据清洗的重要组成部分。这包括去除无关的HTML标签、统一标点符号、处理特殊字符等。例如,在处理网页抓取的数据时,我们需要移除广告文本、导航栏内容等无关信息,只保留对模型学习有价值的主体内容。

3.2 分词技术

分词是将文本转化为模型可以理解的数字序列的关键步骤。如果你要学习一门新的语言,你首先需要知道这门语言的基本单位是什么——是单个字母、单词还是短语。对于大语言模型来说,分词就是这样一个定义基本单位的过程。

目前,主流的分词技术主要有三种:字节对编码(Byte Pair Encoding, BPE)、WordPiece和SentencePiece。让我们通过一个简单的例子来理解BPE的工作原理。假设我们有以下文本:

"The quick brown fox jumps over the lazy dog"

BPE算法会首先将这句话分解为单个字符,然后逐步合并最常出现的相邻字符对。例如,"Th"可能会成为一个token,"er"可能会成为另一个token。这个过程会不断重复,直到达到预设的词汇量大小。

这种方法的优势在于,它能够很好地平衡词汇表大小和对未知词的处理能力。例如,即使模型从未见过"unfathomable"这个词,它也可能能够将其分解为"un"、"fathom"和"able"这样的子词,从而推断出这个词的大致含义。

WordPiece和SentencePiece是BPE的变体,它们在某些细节上有所不同。例如,WordPiece在选择合并哪些子词时会考虑语言学特征,而SentencePiece则将所有输入都视为Unicode字符序列,这使得它特别适合处理多语言文本。

3.3 位置编码

在Transformer架构中,位置编码扮演着至关重要的角色。如果你在阅读一本书时,所有的页面都被打乱了顺序,你还能理解书的内容吗?同样,对于模型来说,知道每个单词在句子中的位置是理解语言的关键。

最初的Transformer模型使用的是正弦和余弦函数生成的绝对位置编码。这种方法的巧妙之处在于,它允许模型外推到训练时未见过的序列长度。然而,随着研究的深入,研究人员发现相对位置编码经常能带来更好的性能。

以旋转位置编码(RoPE)为例,它在GPT-3、LLaMA等多个主流大语言模型中得到了应用。RoPE的核心思想是将绝对位置信息编码到向量的旋转中。具体来说,对于位置k处的查询向量q和键向量k,RoPE会对它们应用以下变换:

q’ = [cos(kθ)q₁ - sin(kθ)q₂, sin(kθ)q₁ + cos(kθ)q₂]
k’ = [cos(kθ)k₁ - sin(kθ)k₂, sin(kθ)k₁ + cos(kθ)k₂]

其中θ是一个预定义的常数。这种编码方式不仅能够捕捉相对位置信息,还保留了绝对位置信息,使得模型能够更好地处理长序列。

3.4 模型预训练

模型预训练是构建大语言模型的核心步骤。这个过程就像是让模型"阅读"大量的文本,从中学习语言的规律和知识。预训练的主要目标是让模型能够理解和生成自然语言,而不是针对特定任务进行优化。

目前,主流的预训练方法主要有两种:掩码语言模型(Masked Language Model, MLM)和自回归语言模型(Autoregressive Language Model, ALM)。BERT使用的是MLM,而GPT系列则使用ALM。

让我们以ALM为例来详细讲解。在ALM中,模型的任务是预测序列中的下一个token。例如,给定序列"The quick brown fox",模型需要预测下一个最可能的词是什么。这个过程可以形式化表示为:

P(x₁, x₂, …, xₙ) = ∏ᵢ₌₁ⁿ P(xᵢ | x₁, …, xᵢ₋₁)

其中x₁, x₂, …, xₙ代表序列中的token。

这种预训练方法的优势在于,它能让模型学习到语言的长距离依赖关系。例如,在预测"The scientist conducted the experiment and the results were …"的下一个词时,模型需要理解整个上下文,而不仅仅是最近的几个词。

近期,一些研究开始探索混合专家模型(Mixture of Experts, MoE)在大语言模型预训练中的应用。MoE允许模型在不同的任务或输入类型上激活不同的"专家"子网络,这种方法能够大大提高模型的容量,同时保持相对较低的计算成本。

3.5 微调技术

微调是将预训练模型适应特定任务的过程。如果说预训练是让模型学习一般性的语言知识,那么微调就是教会模型如何应用这些知识来解决具体问题。

传统的微调方法是在目标任务的数据上对整个模型进行进一步训练。然而,随着模型规模的增大,这种方法变得越来越不实际。因此,参数高效微调方法(Parameter-Efficient Fine-tuning, PEFT)应运而生。

Low-Rank Adaptation (LoRA)是一种广受欢迎的PEFT方法。LoRA的核心思想是,模型权重的更新经常可以用低秩矩阵来近似。具体来说,对于原始的权重矩阵W,LoRA引入了两个低秩矩阵A和B:

W’ = W + BA

其中A∈R(r×d),B∈R(d×r),r远小于d。在微调过程中,只有A和B会被更新,而原始的W保持不变。这种方法大大减少了需要更新的参数数量,使得在有限的计算资源下也能对大型模型进行有效的微调。

例如,在一个面向医疗领域的项目中,研究人员可能会使用LoRA来微调GPT-3,使其能够理解和生成专业的医学术语。通过只更新一小部分参数,模型就能快速适应新的领域,而无需重新训练整个庞大的模型。

3.6 对齐方法

模型对齐是确保大语言模型的输出符合人类期望和价值观的关键步骤。这个过程就像是教导一个高度智能但缺乏社会经验的实体如何与人类互动。

强化学习来源于人类反馈(Reinforcement Learning from Human Feedback, RLHF)是目前最流行的对齐方法之一。RLHF的核心思想是利用人类的反馈来指导模型的行为。这个过程通常包括以下步骤:

  1. 收集人类反馈:对模型生成的多个回复进行人工评分。
  2. 训练奖励模型:基于人类评分训练一个奖励模型。
  3. 使用强化学习优化语言模型:利用奖励模型的反馈来优化语言模型。

img

最近,一些研究者提出了新的对齐方法,如直接偏好优化(Direct Preference Optimization, DPO)。DPO试图绕过奖励模型学习的步骤,直接从人类偏好中学习最优策略。这种方法有望简化对齐过程,提高效率。

3.7 解码策略

解码策略决定了模型如何从概率分布中选择输出token。这就像是在下国际象棋,模型需要决定在众多可能的移动中选择哪一步。

最简单的解码策略是贪婪搜索,即总是选择概率最高的token。然而,这种方法经常导致输出单调重复。因此,研究者提出了各种改进的策略。

束搜索(Beam Search)是一种常用的策略,它在每一步保留k个最可能的候选序列。虽然束搜索能够产生相对高质量的输出,但它可能会错过一些有趣的、低概率的选择。

为了增加输出的多样性,研究者提出了采样策略。Top-k采样在每一步从概率最高的k个token中随机选择,而Top-p采样(也称为核采样)则选择累积概率达到p的最小token集合。这些方法能够在保证输出质量的同时增加多样性。

温度参数T是另一个控制输出多样性的重要工具。通过调整softmax函数:

img

较高的温度会使分布更加平坦,增加低概率事件的发生,而较低的温度则会使分布更加尖锐,偏向于高概率事件。

在实际应用中,研究者经常会结合多种策略。例如,在一个创意写作助手中,我们可能会在故事的开头使用较高的温度和Top-p采样以产生有趣的开场,然后在后续情节发展中逐渐降低温度,确保故事的连贯性。

构建大语言模型是一个多阶段、多方面的复杂过程。从数据清洗开始,通过精心设计的分词和位置编码方案,再到大规模的预训练,每一步都需要仔细的考虑和优化。微调和对齐技术则使得模型能够更好地适应特定任务和符合人类价值观。最后,解码策略的选择直接影响模型输出的质量和多样性。

随着研究的不断深入,我们看到了许多创新性的方法和技术在各个阶段涌现。例如例如,在数据处理方面,我们看到了更加复杂的的清洗和过滤算法;在模型结构上,我们看到了如Mixture of Experts这样的创新设计;在训练方法上,我们看到了如LoRA这样的参数高效微调技术。这些进展不仅提高了模型的性能,也使得大语言模型的训练和部署变得更加高效和易于管理。

然而,构建大语言模型依然面临着诸多挑战。首先是计算资源的问题。训练一个超大规模的语言模型需要大量的GPU或TPU资源,这对许多研究机构和中小企业来说是一个巨大的障碍。其次是数据质量和多样性的问题。随着模型规模的增大,获取足够高质量、多样化的训练数据变得越来越困难。此外,如何确保模型的输出符合伦理标准,不产生有害或偏见的内容,也是一个急需解决的问题。

未来,我们可能会看到更加多元化的模型构建方法。例如,联邦学习技术可能会被用来解决数据隐私和多样性的问题,允许模型在不同的数据源上进行分布式训练。另一个潜在的发展方向是模型压缩和知识蒸馏技术的进一步发展,这将使得大型模型的知识能够被更高效地转移到smaller、更易部署的模型中。

在解码策略方面,我们可能会看到更加智能的、context-aware的方法。例如,模型可能会学习动态调整其解码策略,基于当前的任务类型、用户偏好或者已生成的内容。这将使得模型的输出更加灵活和适应性强。

最后,值得注意的是,随着大语言模型变得越来越强大和普及,其构建过程中的每一个决策都可能对社会产生深远的影响。因此,在技术创新的同时,我们也需要更多地考虑模型的社会影响。这包括但不限于:如何确保训练数据的代表性和公平性,如何防止模型被滥用于生成虚假信息或有害内容,以及如何确保模型的决策过程是透明和可解释的。

4. 大语言模型的使用和增强

image.png

大语言模型(LLMs)的出现不仅影响了自然语言处理领域,还为众多应用场景带来了新的可能性。然而,要充分发挥这些模型的潜力,我们需要掌握如何有效地使用它们,并了解如何增强它们的能力。本章将深入探讨大语言模型的使用技巧、局限性,以及各种增强方法,包括提示工程、外部知识整合、工具使用,以及基于LLM的智能体构建。

大语言模型的使用和增强可以比喻为驾驭一匹千里马。仅仅拥有一匹良驹是不够的,我们还需要掌握驾驭的技巧,了解它的长处和短板,并为它配备合适的装备,使其能够在各种地形上发挥最大的潜力。同样,使用大语言模型不仅需要了解其基本能力,还需要掌握提示工程的艺术,认识到模型的局限性,并通过各种增强技术来扩展其能力边界。

4.1 大语言模型的局限性

尽管大语言模型展现出了令人惊叹的能力,但它们仍然存在一些固有的局限性。理解这些局限性对于有效使用和增强LLMs至关重要。

大语言模型缺乏持久的记忆和状态维护能力。你正在与一个非常聪明但有严重短期记忆障碍的人对话。每次你问他一个新问题,他都会忘记之前的对话内容。大语言模型就像这样,它们无法自然地记住之前的对话历史。这意味着在进行长期交互时,我们需要手动管理对话上下文,或者使用外部存储系统来维护状态。

同时,大语言模型的输出具有随机性和不确定性。即使给定相同的输入,模型在不同时间可能会生成不同的回答。这种特性在某些创意任务中可能是有益的,但在需要一致性和可重复性的场景中可能会造成问题。例如,在一个客户服务系统中,对于同一个问题,我们希望模型能够始终提供一致的答案。

另外大语言模型缺乏最新信息和实时数据访问能力。它们的知识仅限于训练数据的截止日期,无法获取当前发生的事件或最新的信息。这就像一个博学但与世隔绝的学者,他的知识虽然渊博,但可能已经过时。

最后也是最具挑战性的一点,是大语言模型的"幻觉"问题。模型可能会生成看似合理但实际上并不准确的信息。这就像一个善于编造故事的人,他的叙述听起来很有道理,但可能完全是虚构的。例如,一个大语言模型可能会自信地描述一个不存在的历史事件,或者为一个虚构的科学理论提供详细的解释。

4.2 提示工程:与大语言模型对话的艺术

提示工程(Prompt Engineering)是使用大语言模型的核心技巧。它就像是与模型对话的一门艺术,通过精心设计的提示来引导模型生成所需的输出。

最基本的提示工程技巧是明确和具体。例如,不要简单地问"告诉我关于气候变化的信息",而是可以说"请用简单的语言解释气候变化的三个主要原因,并为每个原因提供一个具体的例子"。这样的提示更容易让模型生成结构化和有针对性的回答。

链式思考(Chain-of-Thought)是一种更先进的提示技术。它通过引导模型step-by-step地思考问题,来提高复杂任务的解决能力。想象你正在教一个孩子解决一个复杂的数学问题,你会引导他一步步思考。同样,我们可以这样提示模型:“让我们一步步思考这个问题。首先,我们需要理解问题的要求。然后,我们需要列出已知的信息。接下来,我们可以…”

自我一致性(Self-Consistency)是另一种强大的的技术。它涉及让模型生成多个解决方案,然后选择最一致或最常见的答案。这就像在重要决策前咨询多个专家,然后综合他们的意见。例如,在解决一个复杂的推理问题时,我们可以多次询问模型,然后比较不同的答案,选择最合理或出现频率最高的那个。

反思(Reflection)提示技术鼓励模型对自己的输出进行评估和修正。这就像让一个学生完成作业后,再让他检查并改正自己的错误。我们可以这样提示模型:“请回顾你刚才的回答,思考是否有任何逻辑错误或遗漏的重要信息。如果有,请指出并修正。”

4.3 知识增强:为大语言模型注入外部知识

尽管大语言模型拥有庞大的知识库,但它们仍然无法涵盖所有领域的最新信息。因此,我们需要方法来增强模型的知识。检索增强生成(Retrieval-Augmented Generation, RAG)是一种流行的的方法。

RAG就像是给模型配备了一个智能图书馆助手。当模型遇到不确定的问题时,它可以向这个助手求助,获取相关的信息。具体来说,RAG首先从用户的query中提取关键信息,然后在外部知识源(如搜索引擎、知识图谱等)中检索相关信息。这些检索到的信息随后被添加到原始提示中,作为补充上下文提供给模型。

例如,假设用户问:"2023年诺贝尔物理学奖的获得者是谁?"一个常规的大语言模型可能无法回答这个问题,因为它的训练数据可能不包含这么新的信息。但通过RAG,系统可以首先检索到正确的信息,然后将其作为上下文提供给模型:"2023年诺贝尔物理学奖授予了Pierre Agostini、Ferenc Krausz和Anne L’Huillier,以表彰他们在研究原子内电子运动方面的贡献。"有了这个信息,模型就能够生成准确的回答。

4.4 工具使用:扩展大语言模型的能力边界

为大语言模型提供使用外部工具的能力,就像给一个聪明的助手配备了一套“瑞士军刀”。这大大扩展了模型能够执行的任务范围。

例如,我们可以为模型提供访问计算器的能力。当遇到复杂的数学计算时,模型不需要依赖自己可能不准确的"心算",而是可以调用计算器API来获得精确的结果。想象一个用户问:"如果地球到月球的平均距离是384,400公里,光速是299,792,458米/秒,那么光从地球传到月球需要多长时间?"模型可以识别出这是一个需要精确计算的问题,调用计算器API,然后用自然语言解释结果:“根据计算,光从地球传到月球大约需要1.28秒。”

另一个例子是让模型能够访问实时信息源。例如,当被问及当前的天气状况时,模型可以调用天气API来获取最新的天气数据,然后基于这些数据生成回答。这不仅确保了信息的准确性,还能够处理实时改变的情况。

4.5 LLM-based智能体:自主系统

LLM-based智能体代表了大语言模型应用的一个令人兴奋的前言方向。这些智能体不仅能理解和生成自然语言,还能根据指令执行复杂的任务序列,做出决策,并与环境交互。

想象一个虚拟助手,它不仅能回答你的问题,还能帮你完成一系列复杂的任务。例如,你可能会说:"我想计划一次周末旅行。"一个LLM-based智能体可能会这样响应:

  1. “好的,让我帮您规划周末旅行。首先,我需要了解一些信息。您希望去哪里?预算是多少?有什么特别的偏好吗?”
  2. 在获得这些信息后,智能体可能会说:“根据您的偏好,我建议去海边度假。我现在会查询最近的海滨度假胜地。”
  3. 智能体随后可能会使用搜索API来查找相关信息,然后说:“我找到了三个符合您预算和偏好的选项。现在我将为每个选项查询天气预报和附近酒店。”
  4. 在收集所有必要信息后,智能体会总结信息并提供建议:“基于我的研究,我推荐选择X地。那里的天气预报很好,有一个价格适中的海滩度假村还有空房。您想让我为您预订吗?”
  5. 如果用户同意,智能体甚至可以使用预订API来完成酒店预订。

这个例子展示了LLM-based智能体如何将语言理解、任务规划、信息检索和决策制定结合在一起,创造出一个强大的、几乎自主的系统。

大语言模型的使用和增强是一个快速发展的领域。通过理解模型的局限性,掌握提示工程的技巧,利用外部知识和工具,以及构建智能体系统,我们能够极大地扩展大语言模型的应用范围和效能。随着技术的不断进步,我们可以期待看到更多创新的使用方法和增强技术,进一步推动大语言模型向着更智能、更实用的方向发展。
非常感谢。我继续撰写下一个章节的内容。,下一章节应该是关于大语言模型的数据集和评估方法。让我们开始:

5. 大语言模型的数据集与评估

大语言模型的发展离不开高质量的数据集和有效的评估方法。这就像是为一个天才学生提供优质的学习材料,并设计合适的考试来评估其能力。本章将深入探讨用于训练和评估大语言模型的各类数据集,以及衡量这些模型性能的多种评估指标和方法。
大语言模型的数据集和评估方法可以比作是一个复杂的生态系统。数据集是这个系统的土壤和养分,为模型提供知识和学习材料;而评估方法则是这个系统的"自然选择"机制,帮助我们识别和培育最优秀的模型。这个生态系统的健康与平衡直接影响着大语言模型的发展方向和应用潜力。

5.1 基础任务数据集

基础任务数据集主要用于训练和评估模型的基本语言理解和生成能力。这些数据集涵盖了从简单的文本分类到复杂的阅读理解任务。
以SQuAD(Stanford Question Answering Dataset)为例,这是一个广受欢迎的阅读理解数据集。想象一个学生在阅读一篇文章后回答相关问题的场景,SQuAD就是为模型创造了类似的挑战。它包含了超过10万个问题-答案对,这些问题都基于维基百科的文章。模型需要理解文章内容,并从中找出问题的答案。例如,给定一段关于莎士比亚的文本,问题可能是"莎士比亚出生于哪一年?"模型需要从文本中定位并提取正确的信息。
另一个重要的数据集是GLUE(General Language Understanding Evaluation)。GLUE不是单一的数据集,而是一个包含多个子任务的综合基准。它就像是一场全面的语言能力测试,涵盖了从情感分析到自然语言推理等多个方面。例如,在MNLI(Multi-Genre Natural Language Inference)子任务中,模型需要判断两个给定句子之间的逻辑关系是蕴涵、矛盾还是中性。这个任务考验的是模型的逻辑推理能力。

5.2 涌现能力数据集

随着大语言模型规模的增大,研究者们发现这些模型展现出了一些意想不到的"涌现能力"。为了评估这些能力,一些特殊的数据集应运而生。
MMLU(Massive Multitask Language Understanding)是一个典型的例子。这个数据集涵盖了从初等教育到专业领域的57个学科,包括数学、物理、法律、医学等。它不仅测试模型的知识广度,还考验模型的推理能力。想象一个高中生参加各种学科的奥林匹克竞赛,MMLU就是为大语言模型设计的类似挑战。
另一个有趣的数据集是GSM8K(Grade School Math 8K)。这个数据集包含了8000多道小学数学应用题。乍看之下,小学数学题似乎很简单,但实际上它们考验的是模型的多步推理能力。例如,一道题目可能是:"小明有5个苹果,他给了小红2个,然后又从商店买了3个。现在小明有多少个苹果?"模型需要理解问题,分步骤进行计算,最后得出正确答案。这个过程不仅需要基本的算术能力,还需要理解自然语言描述的场景并进行逻辑推理。

5.3 指令跟随数据集

随着大语言模型在对话和任务执行中的广泛应用,评估模型理解和执行指令的能力变得越来越重要。指令跟随数据集就是为了这个目的而设计的。
FLAN(Fine-tuned LAnguage Net)数据集是一个代表性的例子。它包含了大量的指令-响应对,涵盖了各种任务类型。使用FLAN数据集就像是在训练一个通用的智能助手,它需要理解并执行各种不同的指令。例如,一个指令可能是"用一句话总结这篇文章的主要内容",或者"将以下英文句子翻译成法语"。模型需要正确理解指令,并给出适当的响应。
另一个值得关注的是AlpacaEval数据集。这个数据集的特别之处在于它不仅包含了人类编写的指令,还包含了模型生成的指令。这种方法可以创造出更加多样化和具有挑战性的指令集合。例如,数据集中可能包含"解释量子纠缠理论,但要用一个5岁孩子能理解的方式"这样的指令。这不仅测试模型的知识,还考验其解释复杂概念的能力。

5.4 评估指标

评估大语言模型的性能是一个复杂的任务,需要多种指标来全面衡量模型的各个方面。
对于生成任务,BLEU(Bilingual Evaluation Understudy)分数是一个经典的指标。BLEU主要用于评估机器翻译的质量,但也适用于其他文本生成任务。它通过比较模型生成的文本与人类参考文本的n-gram重叠度来计算分数。然而,BLEU也有其局限性,例如它不考虑语义相似性,只关注表面的词语匹配。
ROUGE(Recall-Oriented Understudy for Gisting Evaluation)是另一个常用于评估文本摘要的指标。它有多个变体,如ROUGE-N(考虑n-gram重叠)、ROUGE-L(考虑最长公共子序列)等。ROUGE不仅考虑精确度,还考虑召回率,因此能更全面地评估生成文本的质量。
对于问答和阅读理解任务,F1分数和Exact Match(EM)是常用的评估指标。F1分数是精确度和召回率的调和平均,而EM则要求答案完全匹配。这两个指标结合使用,可以给出模型性能的全面评估。
然而,随着大语言模型能力的不断提升,传统的自动评估指标往往无法fully捕捉模型的所有方面。因此,人工评估仍然plays重要角色。例如,对于开放式问答或创意写作任务,人类评估者可能会根据回答的相关性、连贯性、创造性等多个维度进行打分。
此外,一些新的评估方法也在不断涌现。例如,使用大语言模型自身来评估其他模型的输出质量。这种方法的思想是,如果一个强大的语言模型难以区分人类生成的文本和AI生成的文本,那么这个AI生成的文本就可以被认为是高质量的。

5.5 挑战与未来方向

尽管在数据集和评估方法上已经取得了显著进展,但仍然存在诸多挑战。
首先是数据集的多样性和代表性问题。大多数现有的数据集主要集中在英语,缺乏对其他语言和文化的充分覆盖。这可能导致模型在处理非英语任务时表现不佳。未来,我们需要更多的多语言、多文化数据集来训练真正的通用语言模型。其次是评估指标的局限性。大多数自动评估指标都难以捕捉语言的微妙之处,如幽默、讽刺或创意表达。开发能够评估这些高级语言特征的指标仍然是一个重大挑战。
如何评估模型的道德性和安全性也是一个重要问题,我们需要开发专门的数据集和评估方法来确保模型不会产生有害、偏见或不当的内容。
最后,随着大语言模型向着多模态方向发展,如何设计能够全面评估模型在文本、图像、音频等多种模态之间交互能力的数据集和评估方法,将是未来的一个重要研究方向。
大语言模型的数据集与评估方法正在经历快速的发展和革新。高质量、多样化的数据集为模型提供了丰富的学习资源,而不断完善的评估方法则为模型性能的提升指明了方向。然而,我们仍需要记住,无论数据集多么全面,评估方法多么精细,它们最终都是为了让语言模型更好地服务于人类需求。因此,在追求技术进步的同时,我们也需要不断思考如何让这些进步更好地对齐人类价值观和社会需求。

6. 大语言模型在基准测试上的表现

大语言模型的能力究竟有多强?它们在各种任务上的表现如何?这些问题不仅吸引着研究者的注意,也是产业界和公众关心的焦点。本章将深入探讨主流大语言模型在各种基准测试中的表现,通过对比分析,我们将更清晰地了解这些模型的优势与局限性。
评估大语言模型的表现,就像是对一个全能运动员进行全面的体能测试。每一项基准测试都像是一个特定的运动项目,考验模型在某一方面的能力。通过这些多样化的测试,我们可以全面地评估模型的性能,发现它们的优势和不足,为未来的改进指明方向。

image.png

6.1 语言理解与生成能力

在基础的语言理解和生成任务中,大语言模型展现出了令人印象深刻的能力。以GLUE(General Language Understanding Evaluation)基准为例,它包含了多个子任务,涵盖了从情感分析到自然语言推理等多个方面。
GPT-3在GLUE基准上的表现就十分出色。例如,在CoLA(The Corpus of Linguistic Acceptability)任务中,GPT-3达到了接近人类水平的性能。这个任务要求模型判断一个给定的英语句子在语法上是否可接受。GPT-3能够准确地识别出微妙的语法错误,这展示了它对语言结构的深刻理解。
在生成任务方面,BLOOM模型在多语言摘要生成任务上表现出色。例如,给定一篇长文章,BLOOM能够生成简洁而准确的摘要,不仅捕捉了文章的主要内容,还能保持语言的流畅性和多样性。这种能力在新闻摘要、文献综述等应用中具有巨大潜力。

6.2 推理与问题解决能力

大语言模型在需要复杂推理的任务中也表现出了惊人的能力。GSM8K(Grade School Math 8K)是一个典型的例子,它包含了8000多道需要多步推理的小学数学应用题。
在这个基准测试中,PaLM(Pathways Language Model)展现出了强大的推理能力。例如,面对这样一道题目:
“一家商店周一卖出了36个苹果,周二卖出的苹果数量是周一的1.5倍,周三卖出的苹果数量比周二少12个。这三天总共卖出了多少个苹果?”
PaLM能够step-by-step地解决这个问题:

  1. 周一卖出36个苹果
  2. 周二卖出36 * 1.5 = 54个苹果
  3. 周三卖出54 - 12 = 42个苹果
  4. 总共卖出36 + 54 + 42 = 132个苹果

这种清晰的推理过程不仅给出了正确答案,还展示了模型是如何一步步解决问题的,这对于教育应用来说极具价值。

6.3 知识与常识推理

评估大语言模型的知识广度和常识推理能力是一个挑战性的任务。MMLU(Massive Multitask Language Understanding)基准测试就是为此设计的。它涵盖了57个学科,从基础的小学知识到高度专业的领域知识都有涉及。
在这个基准测试中,GPT-4展现出了惊人的表现。例如,在回答"哪个粒子负责传递电磁力?“这样的物理学问题时,GPT-4不仅能够正确回答"光子”,还能解释光子的性质和它在电磁相互作用中的角色。这种深度的理解和解释能力,显示了GPT-4不仅拥有广泛的知识,还能进行深入的推理。

6.4 多语言能力

随着全球化的深入,大语言模型的多语言能力越来越受到重视。XTREME(Cross-lingual TRansfer Evaluation of Multilingual Encoders)基准就是专门设计来评估模型的跨语言迁移能力的。
在这个基准测试中,XLM-R(XLM-RoBERTa)表现出色。例如,在零样本跨语言迁移设置下,即模型只在英语数据上训练,但需要在其他语言上执行任务,XLM-R在多个语言的命名实体识别任务中都取得了良好的效果。这种能力意味着,即使对于资源匮乏的语言,我们也可能通过跨语言迁移来构建有效的NLP系统。

6.5 代码生成与理解

近年来,大语言模型在代码相关任务上的表现也引起了广泛关注。HumanEval是一个评估模型编程能力的基准测试,它包含了164个编程问题,涵盖了各种编程概念和算法。
在这个基准上,Codex模型展现出了强大的代码生成能力。例如,给定这样一个问题描述:
“编写一个函数,接受一个整数列表作为输入,返回该列表中第二大的数。如果没有第二大的数,则返回None。”
Codex能够生成如下的Python代码:

def second_largest(numbers):
    if len(numbers) < 2:
        return None
    largest = max(numbers)
    second = max(num for num in numbers if num < largest)
    return second if second < largest else None

这段代码不仅正确实现了所需的功能,还考虑了边界情况,展示了模型对编程逻辑和Python语言特性的深入理解。

6.6 挑战与局限性

尽管大语言模型在许多基准测试上表现出色,但它们仍然面临着诸多挑战。

  1. 是模型的不一致性。在某些情况下,模型可能对相同的问题给出不同的答案,或者在简单问题上出错而在复杂问题上表现出色。这种不一致性降低了模型的可靠性,特别是在需要高度准确性的应用场景中。
  2. 是模型的"幻觉"问题。在TruthfulQA这样的基准测试中,即便是最先进的模型也时常会生成看似合理但实际上并不正确的信息。这突显了确保模型输出真实性和准确性的重要性。
  3. 大语言模型在处理需要实时信息或专业领域知识的任务时仍然面临挑战。例如,在回答"现任联合国秘书长是谁?"这样的问题时,模型可能会给出过时的答案。
  4. 模型的伦理和偏见问题也值得关注。在一些评估公平性和包容性的基准测试中,大语言模型有时会表现出一定的社会偏见,这提醒我们在开发和使用这些模型时需要特别注意伦理问题。

大语言模型在多个基准测试上展现出了让人印象深刻的性能,从基础的语言理解到复杂的推理任务,从多语言处理到代码生成,这些模型都显示出了强大的能力。然而,我们也需要清醒地认识到这些模型的局限性,继续改进模型的一致性、真实性和公平性。

7. 挑战与未来方向

尽管大语言模型在众多领域取得了令人瞩目的成就,但它们仍然面临着诸多挑战。同时,这些挑战也为未来的研究指明了方向。本章将深入探讨大语言模型当前面临的主要挑战,以及研究社区正在探索的有希望的未来方向。
大语言模型的发展犹如一场漫长的探险之旅。我们已经攀登到了令人惊叹的高度,但在通往真正的人工智能的道路上,仍有许多未知的山峰等待我们去征服。每一个挑战都是一座新的山峰,而每一个研究方向都是一条可能通向顶峰的路径。

image.png

7.1 更小、更高效的语言模型

虽然"更大就是更好"这一理念在过去几年推动了大语言模型的快速的发展,但模型的巨大规模也带来了显著的挑战。训练和部署这些模型需要更多的计算资源,这不仅造成了高昂的经济成本,还带来了环境影响。
因此,研究社区正在积极探索如何开发更小、更高效的语言模型。例如,微软研究院的Phi-1系列模型展示了小型模型也能实现令人印象深刻的性能。Phi-1只有13亿参数,但在某些任务上的表现可以媲美有着数百亿参数的大型模型。
未来的研究方向可能包括:

  1. 模型压缩技术:如何在不显著降低性能的情况下减少模型的参数量。
  2. 知识蒸馏:如何将大模型的知识有效地转移到小模型中。
  3. 稀疏激活:研究如何只激活模型中的一小部分参数来完成特定任务,从而提高效率。

这些研究不仅可以降低模型的使用成本,还可能使大语言模型技术在资源受限的设备(如移动设备)上得到更广泛的应用。

7.2 新的后注意力架构范式

Transformer架构自2017年提出以来,一直是大语言模型的主导架构。然而,随着模型规模的不断增大,Transformer架构的一些限制也逐渐显现,尤其是在处理长序列时的效率问题。
研究者们正在探索新的架构范式,以客服这些限制。例如,State Space Models (SSMs)就是一个有希望的方向。像Mamba这样基于SSM的模型展示了处理长序列时的优势,它能够高效地建模长距离依赖关系,同时保持较低的计算复杂度。
未来的研究方向可能包括:

  1. 改进的注意力机制:如何设计更高效的注意力机制,以更好的处理长序列。
  2. 混合架构:如何结合Transformer和其他架构的优点,创造更强大的模型。
  3. 动态架构:研究能够根据输入自动调整结构的模型架构。

这些新的架构范式可能会带来大语言模型在效率和能力上的质的飞跃。

7.3 多模态模型

语言是人类交流和理解世界的重要方式,但it’s not 唯一的方式。视觉、听觉等其他感官也在我们的认知过程中起着关键作用。因此,研究社区正在积极探索如何将语言模型与其他模态结合,创造真正的多模态AI。
GPT-4已经展示了处理图像和文本的能力,而像DALL-E这样的模型则能够根据文本描述生成图像。未来的研究方向可能包括:

  1. 跨模态理解:如何让模型better理解不同模态之间的关系和互动。
  2. 多模态生成:如何同时生成多种模态的内容,例如自动为视频生成配音和字幕。
  3. 多模态推理:如何利用多种模态的信息进行更复杂的推理任务。

多模态模型的发展可能会让AI系统在理解和交互方面更接近人类的认知方式。

7.4 改进的LLM使用和增强技术

尽管大语言模型本身已经很强大,但如何更有效地使用和增强这些模型仍然是一个重要的研究方向。
例如,检索增强生成(RAG)技术已经证明了其在提高模型输出准确性和时效性方面的潜力。未来的研究方向可能包括:

  1. 更智能的检索策略:如何更准确地识别和检索与当前任务相关的信息。
  2. 动态知识更新:如何让模型能够实时更新其知识库,而不需要完全重新训练。
  3. 个性化增强:如何根据用户的特定需求和背景知识来定制模型的输出。

此外,提示工程(Prompt Engineering)的发展也值得关注。如何设计更有效的提示来引导模型生成所需的输出,这本身就是一个富有挑战性的研究课题。

7.5 安全性和伦理AI

随着大语言模型在各个领域的广泛应用,确保这些模型的安全性和伦理性变得越来越重要。
目前的研究已经揭示了一些潜在的风险,如模型生成有害或偏见内容、被滥用于生成虚假信息等。未来的研究方向可能包括:

  1. 对齐技术:如何确保模型的行为与人类价值观保持一致。
  2. 可解释性:如何让模型的决策过程更加透明和可解释。
  3. 隐私保护:如何在利用大规模数据训练模型的同时,保护个人隐私。
  4. 公平性:如何减少模型在不同人群中的表现差异,确保AI技术的公平使用。

这些研究不仅关乎技术本身,还涉及法律、伦理、社会学等多个领域,需要多领域的合作。
大语言模型的未来发展方向是多元化的。从技术角度看,我们需要努力提高模型的效率、扩展其能力范围;从应用角度看,我们需要探索如何更好地利用和增强这些模型;从社会角度看,我们需要确保这些强大的技术工具被负责地使用。
这些挑战是巨大的,但也充满机遇。它们不仅推动着AI技术的进步,也促进着我们对智能本质的深入思考。随着研究的不断深入,我们有理由期待大语言模型将继续进化我们与技术交互的方式,并在解决复杂的现实问题方面发挥越来越重要的作用。

img

8.大模型的应用案例

8.1 AIGC应用案例

LinkedIn:为会员提供优质生成式产品

LinkedIn 聘请 LLM 向用户推荐相关的高级产品。LinkedIn 的推荐系统可以通过分析用户数据(包括职业历史、兴趣和活动模式)为会员匹配最适合其需求的高级服务和产品。

这种有针对性的方法有助于 LinkedIn 提高用户满意度并推动其高级产品的订阅。

2、Discord:生成式人工智能用例

流行的通信平台 Discord 探索了各种生成式 AI 用例,以提高用户参与度。

Discord 可以通过快速开发和集成生成式 AI 功能,为用户提供创意工具,例如 AI 生成的头像、内容审核和自动回复。这些功能利用 LLM 来改善用户体验并培养更具互动性的社区

3、格莱美奖:定制见解和内容

IBM 还宣布了一项协议,为格莱美奖的所有者录音学院提供一项名为 AI stories 的服务。该服务利用在 IBM Wastonx.ai 工作室上运行的 Llama 2,帮助定制见解和内容。这项服务将围绕艺术家及其作品的相关数据集的数据矢量化,LLM 可以通过 RAG 数据库检索这些数据,粉丝们也可以与这些内容进行互动。

4、Shopify:生成产品描述

Shopify Sidekick 是一个 AI 驱动的工具,利用 Llama 2 帮助小企业主自动完成管理其商务网站的各种任务,如生成产品描述、回应客户查询和创建营销内容。

5、Waymark&OpenAI,集成GPT-3增强和扩展视频创建

Waymark集成GPT-3后,使用微调的GPT-3模型来创建不同脚本编写体验,使得用户可以在几秒钟内收到其业务的原始自定义脚本。

对于Waymark来说,从自己动手到为您动手模式的演变提升了他们的使命,即让视频创作变得可访问。他们现在将自己定义为“世界上第一个自然语言视频创作平台”。

此项功能推出后,Waymark 客户花在编辑脚本上的时间要少得多。特别是对于与许多本地企业合作的公司来说,这是一个节省时间和成本的巨大增强功能,使他们能够更快速高效地推销、销售和支持更多的本地广告商。

6、BukiHQ Medi&fireflies.ai,有效解决公关会议记录问题

BukiHQ Medi内部数据显示,大约 15% 的会议时间被浪费,主要是由于会议设备效率低下。不仅如此,在手动做笔记时,讨论的要点经常被忽略。

为了解决这些问题,BukiHQ Medi引入了fireflies.ai(基于生成式AI技术的语音助手)的解决方案。使用fireflies.ai的AI笔记记录器,可以有效地创建会议记录 (MoM)。这减少了手动记笔记带来的许多沟通不畅和后续行动。

不仅如此,fireflies.ai机器人Fred作为参与者保持通话状态,而不会以任何方式中断会议,自动记笔记使 BukiHQ 更容易专注于讨论并节省大量时间。

7、新墨西哥州&Colossyan,视频制作效率大幅提升

新墨西哥州是美国西南部的山区州之一,人口数约200万。国家和公民之间清晰透明的沟通,对于政务治理起着至关重要的作用。新墨西哥州制作了许多教育内容,但主要是基于文本的。观看视频是该州本地人接收大量信息并遵循教学视频的首选方式。制作视频需聘请专业的视频编辑、摄制组、工作室或支持人员等,投入巨大,工期超长。

使用Colossyan的文本转视频解决方案之后,生成视频的过程就像选择头像/演员并输入内容一样简单。可以在视频中添加音乐和自定义背景,从而获得更具吸引力的学习体验。这样,他们就不需要安排演员或搭建背景来制作高质量的视频。

8、HealthifyMe&Pepper Content,应用参与度6个月飙升至90%

HealthifyMe是一个总部位于印度的健康和保健平台,十年前开始作为一个简单的应用程序,帮助用户跟踪他们的卡路里摄入量。用户可以在应用程序上浏览各种健身计划,并与来自世界各地的 2000多名营养师和教练联系,以实现他们的健身目标。

HealthifyMe采用知识分享策略,来吸引更多用户。内容模式诞生了,却遇到了新的挑战。知识分享激发了用户的兴趣和参与度,但由于内容单一,逐级让用户失去了兴趣。HealthifyMe引入了Pepper Content,将用户想法转化为精心设计的演示文稿。通过一致和简化的演示交付,HealthifyMe的平台活跃用户百分比从75%上升到90%。

9、Sabine&Synthesia,培训效率提高70%

Sabine(博西家电)集团是欧洲最大的家电制造商,拥有60000多名员工,是全球行业领先的公司之一。由于Sabine是一家知识遍布全球的全球性公司,希望确保组织中的每个人都能获得这些知识,但重要的是以有效的方式完成这项工作。

为了不受时间和空间限制地提供专业知识,电子学习的数字化是一个显而易见的选择,但Sabine的团队不想依靠无聊的PDF或幻灯片来点击。视频是首选格式,但它有许多限制:成本、灵活性、译本。

它们引入Synthesia软件,作为生成式AI视频制作平台,Sabine迅速开发了一个虚拟辅导员,以指导学习者完成培训课程。该试点取得了巨大的成功,包括:超过30000次基于Web的培训观看,电子学习的参与度提高了30%以上,节省超过 70%的外部视频制作成本。

10、Achievers&Forethought,首次联系解决率实现93%

Achievers是一个员工语音识别解决方案平台,可帮助组织建立员工敬业度和可持续绩效。Achievers的业务既有B2B也有B2B2C。在B2B2C方面,最终用户由全球客户支持团队提供支持服务。Achievers的目标是为客户提供一流的支持体验,并建立可扩展的支持团队并高效运营。

Achievers引入了用于客户支持自动化的AI生成平台Forethought,Achievers利用知识库和预构建的工作流,通过自动化小部件解决重复工单。解决即时搜索成功者的知识文章和以前解决的工单的整个数据库,以提供最准确的支持查询响应,而无需代理的干预。

11、RealDefense&Observe.AI,通过AI指导实现103%的销售配额

RealDefense为消费者和小型企业提供身份保护和实时技术支持服务。该组织拥有超过100万客户,业务遍及全球33个国家/地区。

它们引入Observe.AI智能劳动力平台,不仅让企业看到客服座席的不规范性,还提供了对客户交互的全面可见性。由生成式AI驱动的对话智能和评估分数的历史,帮助企业提高单个座席和整个团队(包括主管和QA经理)的绩效。

尝到甜头后,RealDefense开始进一步接入Observe.AI的QA评估表、情绪分析、Moments、记分卡视图、网络聊天等工具,加强其销售业绩。方案全面实施后,企业在业务绩效方面有了显著提高。以前所有代理的自动失败率为 100%,现在已改善了 90% 以上。随着团队坚持销售脚本,销售配额完成率已提高到103%。同时,该组织也建立了强大的反馈循环,可提供持续更新和可操作的信息。

12、MHI&Lumen5,扩展内容策略并加快工作流程

三菱重工(MHI)是一家总部位于东京的跨国工程和制造公司。MHI集团为电力和能源、工业机械、城市基础设施、航空航天和国防等广泛领域提供创新和集成的解决方案。

MHI引入了生成式AI视频平台Lumen5,编辑团队意识到他们不需要成为视频制作专家即可为其活动,博览会和社交媒体账户创建引人入胜的视频,业务流程效率大幅提升。

使用Lumen5不到一年,MHI发布的视频内容量是以前的五倍,从而增加了网站流量。视频获得的展示次数是其他类型内容的两倍。现在MHI在LinkedIn上分享的内容中至少有一半是Lumen5视频,大幅提高了粉丝互动的参与率。

13、借助Wordsmit,美联社自动化撰写了50000篇文章

Wordsmith使用自然语言生成将数据转化为富有洞察力、听起来像人类的叙述。就财务报告而言,Wordsmith在几秒钟内将Zacks Investment Research的收益数据转换为可发布的美联社故事。美联社现在制作了4400个季度收益故事,比其手动工作效率提升了近 15倍。

为了支持体育记者,美联社在2018赛季开始自动化NCAA一级男子篮球预览,使用Wordsmith和Stats Perform的数据为常规赛提供超过5000个预览。同样在2018赛季,美联社开始使用Wordsmith生成的NCAA一级男子篮球比赛的自动回顾。数据驱动型报道的自动化,使记者能够专注于撰写批判性的定性文章。

8.2 ChatBot应用案例

1、StarHub&Haptik,通过Haptik实现全渠道获客

StarHub是一家领先的新加坡公司,提供世界一流的通信,娱乐和数字解决方案。凭借高质量的移动和固定服务、广泛的优质内容套件以及多样化的通信解决方案,StarHub Mobile拥有超过200万客户,是新加坡第二大移动网络运营商,拥有近30%的市场份额。

StarHub与Haptik合作,在Facebook页面构建了一个智能Chatbot虚拟助手,以回答有关其数字电视,有线电视,IPTV,宽带互联网,电话和移动设备服务的查询。凭借Facebook虚拟助手获得的巨大吸引力,StarHub还在其网站和WhatsApp上启用了他们的AI助手。

方案实施后,StarHub的IVA具备了3000+独特意图,用于回答有关预付费计划、光纤宽带、品牌优惠和重新合同资格的查询。并拥有50+ 预构建旅程,帮助用户激活/停用数据旅行计划、漫游计划、故障排除指南等。

同时,StarHub在不到 6-8 个月的时间内将 NPS(即净推荐值)从-40提高到+10。显著缩短了常规查询(如帐户余额、计划、账单、新产品/服务等)的首次响应时间,客户体验大幅改进。

2、新奥集团&IBM ,Chatbot融合方案实现生产力大幅提升

新奥集团有限公司(ENN Group)致力于用当今的技术解决未来的能源挑战。这家绿色能源巨头为中国及其他80多个城市的客户提供服务,长期以来一直处于该行业技术创新的最前沿。

2020 年初,新冠疫情的爆发要求该公司的数千名办公室员工几乎在一夜之间转向在家工作。对与远程工作相关的 IT 服务的需求(例如请求 VPN 权限以及密码下载和重置)立即飙升。IT 帮助台人员不堪重负。

为解决这个难题,新奥集团推出一款新的虚拟助手,该助手结合了IBM Watson Assistant(IBM的Chatbot产品)和IBM Watson Discovery(智能搜索和文本分析平台)技术的人工智能,以解释和响应IT员工服务台请求。每天完成 2000 –3000 个任务,实施 70 多个业务场景,创造了数百万美元的价值,并将处理时间缩短了 60%。

3、索尼印度&Yellow.ai,两个月处理超2万客户电话

索尼印度是索尼公司在日本的全资子公司,是电视、数字成像、个人音频、家庭娱乐、游戏、汽车音响和专业解决方案等类别电子产品的高端品牌。

凭借不断扩大的客户群和庞大的经销商网络,索尼印度公司有大量的查询和有限的代理带宽来有效处理每个查询。在工作时间后收到的大量客户请求导致及时提供解决方案的延迟。

索尼选择了Yellow.ai为技术供应商,引入Chatbot,建立一个专门的24/7帮助热线,用于销售和服务支持,同时该解决方案还需要与索尼CRM集成。语音AI代理可以收集,记录和分析用户信息,以提供个性化体验。语音 AI 代理准确收集、记录和分析用户信息,以提供个性化体验,同时还根据 PIN 码话语识别州、城市和地区,提供基于位置的服务。

方案实施后,索尼语音AI座席每季度处理的呼叫可节省工时成本46K+,产品和演示请求的环比增加5%,提高了潜在客户,每月服务请求导致客户履行的每月服务请求达到13K+。

4、Otus&Intercom,Chatbot让客户满意度高达97%

Otus是一家教育技术公司,提供学习管理系统,帮助学生、教师、家长和管理人员。

为了给客户创造更好的体验,Otus引入了Intercom的Chatbot解决方案。

方案实施后,借助统一的客户沟通平台,Otus能够利用 Intercom 的分析(特别是对话主题和自定义报告)来了解客户的需求并庆祝团队的成功,从而创建一致的体验、更有效地协作并推动持续改进。

在客服支持方面,该团队利用自定义机器人和文章等自动化功能,实时为客户提供即时答案,并使他们能够自助服务。在机器人和自动化的帮助下,Otus 自动解决了 22.2% 的客户问题,CSAT(客户满意度)得分为 97%,客户对他们收到的快速、个性化的服务感到满意。

5、新华三&网易七鱼,终端呼叫满意度连续四月超98%

新华三智能终端有限公司,由新华三技术有限公司全资成立,致力于向小微企业和智慧家庭提供“极致用户体验”的产品及方案,业务涵盖小微商业网络、智慧家庭网络、家庭安防和企业智慧屏。目前,智能终端的产品在网运行设备数已经超过1000万。

新华三引入了网易七鱼,通过其多功能坐席,新华三将多个渠道的在线咨询汇集到一起由人工客服统一处理。基于“智能识别”的能力,七鱼辅助新华三智能终端开通了VIP 服务专线,在线加呼叫多功能坐席满足同时满足”传统用户“和”互联网用户“服务需求。

借助网易七鱼基于AI技术的在线机器人,新华三智能终端问题匹配率可高达90%以上,分流80%左右的咨询量,在线机器人高效处理流程化咨询,降低客服倦怠感。

目前,新华三智能终端客服机器人的问题解决率已经达到80%,机器人问题匹配率也达到了97%;同时云呼叫中心的应用,新华三智能终端呼叫满意度已经连续四个月保持在98%以上。

8.3Copilot应用案例

1、GitHub Copilot

GitHub Copilot X 致力于改进开发者体验,将提供聊天和语音界面,支持拉取请求,回答文档问题,并通过 GPT-4 实现更个性化的开发者体验,包括:

  • GitHub Copilot聊天功能:在编辑器中集成与VS Code和Visual Studio的聊天界面,帮助开发者深入分析代码、生成单元测试和修复bug。
  • GitHub Copilot语音功能:允许开发者通过口头指令进行自然语言提示。为拉取请求(Pull Request)提供AI生成的描述:基于GPT-4模型生成拉取请求描述和标签。
  • 自动生成测试建议:GitHub Copilot将警告开发者测试覆盖率不足,并建议潜在的测试方案。GitHub Copilot文档功能:提供基于聊天界面的文档查询,为开发者提供实时答案。
  • GitHub Copilot CLI:为命令行界面提供智能建议。

2、Microsoft Dynamics 365 Copilot

联想,作为一家业务遍布180个国家的跨国企业,深知这一挑战对其43000名知识工作者的影响。他们渴望为每一位员工提供一个与世界同行无缝协作的平台,让知识的交流不再受地域限制。

联想为其全球业务选择了Microsoft Dynamics 365 Copilot这一革命性的人工智能解决方案。通过GenAI的强大能力,联想正在逐步破解信息管理的复杂性,免除企业员工信息过载的困扰,使他们能够更加轻松地驾驭信息洪流,在各自的岗位上更加出色地发挥才能,实现全球范围内的高效协作。

  • 65%的联想用户表示,使用Copilot 智能副驾驶® for Microsoft 365提高了工作效率
  • 52%的联想用户表示,他们每天可节省 30 分钟以上的时间
  • 每位员工每周节省9 个小时,有利于从事更有创造性的工作
  • 75% 的联想用户会推荐使用 Copilot 智能副驾驶® for Microsoft 365
  • 联想使用Copilot for Microsoft 365用户数量较项目启动之初增长了100%,扩大了采用范围

8.4Insight应用案例

1、飞算科技 AI.Insight

AI.Insight是飞算科技推出的一款智能客户洞悉工具,针对企业数据分析与决策的痛点给出了全面的解决方案:

  • 沟通与工具割裂:AI.Insight通过自然语言交互方式,使得业务和技术人员能够快速、准确地沟通需求,降低使用门槛,减少理解偏差,实现需求的即时响应和处理。
  • 数据分析时效性低:AI.Insight利用大模型增强分析技术,能够在短时间内自助分析并定位业务问题,极大提高了数据分析的时效性。
  • 分析工具割裂:AI.Insight集成了多种分析功能,用户可以使用自然语言搜索任何问题,答案以见解、报告和推荐的仪表板形式展现,减少了对多个工具的依赖。
  • 数据整理复杂:AI.Insight的自动分析(Auto OLAP)技术帮助用户从不同角度和维度对数据进行分析,简化了数据整理过程,提高了数据的可读性和实用性。
  • 数据分析未能有效赋能业务决策:AI.Insight能够自动进行图表和报告展现,用户可以随时随地获取精准的经营数据问题回答,直接支持营销决策。

以一家西北菜连锁餐饮集团为例,该集团面临业绩下滑的挑战。通过应用AI.Insight智能决策平台,营销人员迅速分析出业绩下滑的根本原因,并在短短一个季度内实现了线上渠道复购率提升20%,GMV提升10%,有效扭转了业绩下滑趋势。

2、亚马逊:优化评论洞察分析

亚马逊的AI推荐系统简化了购物者的决策过程。该算法能够提炼共同的主题,提供对产品特性和买家评论的即时洞察。这一系统帮助用户节省了时间,使他们能够迅速判断商品是否满足自己的需求。

LLM还能够精确地识别提及特定属性的评论,进一步简化了用户购买前的产品研究过程。此外,亚马逊还十分注重产品评论的真实性,确保所有洞察均基于真实的客户体验。受益于此,客户可以更放心地在亚马逊消费。最后,AI系统还有效优化了购买流程,大大降低了购物车弃置率。

3、Zalando:实时定制化的建议

零售巨头Zalando借助其beta版本的AI助手,为时尚界带来了一场革命性的变革。该品牌坚信,由生成式AI引领的时尚潮流,将引领我们走向一个更加个性化、互动性十足的购物新纪元。他们推出了一款对话式工具,让顾客在轻松的聊天中就能发现那些与自己独特风格和需求完美契合的服饰。

Zalando将这一创新项目视为一场共同创造的旅程,他们诚邀用户参与其中,提供宝贵的反馈。通过这种开放合作的方式,虚拟助手得以不断自我进化迭代,与顾客的喜好和需求同步成长。

4、Tripadvisor:升级旅行规划

Tripadvisor最新推出的AI驱动生成器为创建旅行行程提供了强大的助力。该解决方案可以根据目的地、日期和旅行者的偏好来创建定制的路线。公司过往庞大的顾客评论和反馈数据库确保了这些推荐建议的可靠性,所以旅行者可以轻松定制他们的旅行日程,并且再次“反哺”数据库。总的来说,生成式AI确保了推荐更个性化,可以优化规划体验,提升用户参与度。

5、维珍之旅:尝试定制邀请函

在旅游业,生成式AI的运用又添一例——邮轮公司维珍之旅(Virgin Voyages)推出的“Jen AI”。这一别出心裁的策划呈现了一个由 AI驱动的虚拟詹妮弗·洛佩兹(Jennifer Lopez)形象。该技术解决方案能帮助旅行者制作个性化的邀请函,以一种令人难忘的方式集结亲朋好友。邀请函还能针对即将到来的活动,进行详尽的个性化定制。

尽管技术仍有一定的提升空间,但它也展示了生成式解决方案在动态定制互动体验方面的潜力。这种创新方法也彰显了品牌对提供有趣、引人入胜服务的坚定承诺。

8.5Agent应用案例

1、BlackRock的Aladdin平台

BlackRock,全球首屈一式的资产管理巨头,其Aladdin平台堪称投资管理的全能助手。

Aladdin融合AI与大数据技术,专攻风险评估与投资分析,为投资经理提供决策支持。通过机器学习与自然语言处理技术,Aladdin能从海量市场资讯中提炼价值,包括新闻报道、社交媒体动态及企业财报,助力投资者洞察市场风云。Aladdin利用了一种系统性的投资方法,其中涉及如步态跟踪、信用卡刷卡、电子商务交易和驾驶时间等数据。所有这些数据都被输入到平台上,以识别消费者的消费模式和趋势,预测并相应地响应宏观经济环境中的潜在威胁。

Aladdin在2022年为Blackrock带来了14亿美元的技术收入,且三年复合年增长率高达12%。作为最初只是BlackRock内部的风险管理平台,随着结合AI Agent的功能,Alladin现已被1000多家组织用于部分或全部投资流程。可以说,目前的Alladin是BlackRock的核心,也是公司未来的愿景。

2、J.P. Morgan的LOXM系统

J.P. Morgan于2017年宣布了LOXM系统,一个AI程序,旨在基于数十亿次历史交易数据,为客户执行交易以实现最高效率和最优价格。LOXM提高了J.P. Morgan交易执行率,解决的客户交易需求,且在2017年Q1的实践运用中,在没有提高风险管理问题的情况下展现出了性能上的优势。

调查显示,交易员们通过使用LOXM,使订单执行效率提高了约15%。这种性能的提升意味着在高频交易竞争激烈的环境中,AI Agent迈出了通往主导地位的重大一步。

3、Two Sigma 量化投资

Two Sigma在交易中使用AI Agent的一个例子是其选股策略。该公司使用机器学习模型分析大量财务数据,以识别可能优于同行的公司。这些模型考虑了诸如盈利增长、现金流和估值比率等因素,以及利率和GDP增长等宏观经济数据。AI还帮助Two Sigma在其他资产类别中做出投资决策,如商品和货币。该公司使用NLP(自然语言处理算法)分析新闻文章和社交媒体帖子,以识别各种商品(如石油和黄金)周围的趋势和群众对商品的态度。同时,Two Sigma使用机器学习模型分析市场波动性、流动性和其他风险因素的数据,以识别对其投资组合的潜在风险。这使得他们能够调整其投资策略,以最小化风险并最大化回报。

4、RoboAgent

Meta和CMU 联合研究团队耗时两年,成功开发出的RoboAgent 通用机器人智能体。RoboAgent仅仅通过7500个轨迹的训练就实现了12种不同的复杂技能,包括烘焙、拾取物品、上茶、清洁厨房等任务,并能在100种未知场景中泛化应用。

无论遇到多大的干扰,RoboAgent 都能坚持完成任务。该研究的目标是建立一个高效的机器人学习范例,解决数据集和场景多样性的挑战。研究人员提出了多任务动作分块 Transformer(MT-ACT)架构,通过语义增强和高效的策略表示来处理多模态多任务机器人数据集。

5、Nvidia Voyager

由NVIDIA、加州理工学院等共同推出的Voyager,使用GPT-4来引导学习的Minecraft智能体通过像素世界,需要说明的是,Voyager依赖于代码生成,而不是强化学习。

Voyager是第一个玩《我的世界》的终身学习智能体。与其他使用经典强化学习技术的 Minecraft智能体不同,Voyager使用GPT-4来不断改进自己,通过编写、改进和传输存储在外部技能库中的代码来实现这一点。

这会产生一些小程序,帮助导航、开门、挖掘资源、制作镐头或与僵尸作战。GPT-4解锁了一种新的范式,在此范式中“训练”是代码的执行,“训练模型”是Voyager迭代组装的技能代码库。

6、Amazon Bedrock Agents

亚马逊发布的Amazon Bedrock Agents,允许开发人员快速创建完全托管的智能体。通过对企业系统执行API调用,Amazon Bedrock智能体加快了可管理和执行活动的生成式AI应用程序的发布速度。

Amazon Bedrock Agents简化了用户请求任务的快速工程和编排。设置完成后,这些智能体可以自主构建提示,并使用公司特定的数据安全地增强提示,从而向用户提供自然语言响应。这些高级智能体具有推断自动处理用户请求的必要操作的能力。

7、Inflection AI Pi

Inflection AI公司推出的个人AI Agent产品Pi,核心大脑是公司研发的Inflection-1大模型,性能媲美GPT-3.5。Pi与时下流行的通用聊天机器人不同,它只能进行友好的对话,提供简洁的建议,甚至只是倾听。

它的主要特征是富有同情心、谦虚好奇、幽默创新, 具有良好的情商,可以根据用户的独特兴趣和需求提供无限的知识与陪伴。Inflection自开发Pi开始,就确定了Pi将作为个人智能(Personal Intelligence),而不仅仅是辅助人工作的工具。

8、澜码科技Ask XBot

澜码科技构建的Agent平台“Ask XBot”,平台分两层:第一层是专家赋能,专家通过拖、拉、拽以及对话交互的方式定义工作流程,教给机器,从而协助一线员工构建更高效工作的方法论;第二层是员工使用Agent,一线员工可以通过自然语言和Agent沟通并下达指令,让Agent协助完成数据分析、资料调取等工作。

该公司计划将Ask XBo打造成一个兼具通用性和易用性的平台,把这些API和Agent做好管理,让Agent包装不同的API,不同模型的Agent能够在上面更好地协作,让它们可以在平台上更有效率、更智能地服务好客户。

9、OmBot欧姆智能体

2023 世界人工智能大会上,联汇科技发布了基于大模型能力的自主智能体(Auto AI Agent )——OmBot 欧姆智能体,并针对典型场景需求推出了首批应用。

联汇自主智能体包含了认知、记忆、思考、行动四大核心能力,作为一种自动、自主的智能体,它以最简单的形式中在循环中运行,每次迭代时,它们都会生成自我导向的指令和操作。因此,它不依赖人类来指导命令,具备高度可扩展性。

10、实在智能TARS-RPA-Agent

实在智能在超自动化领域首发的TARS-RPA-Agent,是一个基于“TARS+ISSUT(智能屏幕语义理解)”双模引擎、有“大脑”,更有“眼睛和手脚”的超自动化智能体,是能够自主拆解任务、感知当前环境、执行并且反馈、记忆历史经验的RPA全新模式产品。

TARS-RPA-Agent采用以TARS大模型和ISSUT智能屏幕语义理解为基座的技术框架。该技术框架分为两层结构:底层是包括通用基础模型和各个垂直行业基础模型在内的TARS系列大模型和智能屏幕语义理解技术;上层是依托这两项关键技术完成全面升级和改造的超自动化产品。

TARS-RPA-Agent的核心LLM是实在智能基于通用大模型基座的自研垂直“塔斯(TARS)”大模型,TARS大模型具备优异的文本生成、语言理解、知识问答、逻辑推理等主流能力。

8.6ToB行业应用案例

1、彭博社BloombergGPT金融大模型

BloombergGPT是Bloomberg训练出来的金融大语言模型(LLM for Finance),彭博的机器学习产品和研究小组和人工智能工程团队合作,利用彭博在数据创建、收集和整理方面的资源,构建了迄今为止规模最大的专业领域数据集之一。

开发团队从这个由海量英文金融文档组成的档案库中提取并创建了一个包含3,630亿词例(token)的金融数据集。这批数据又与另一个包含3,450亿词例的公共数据集叠加,成为了包含超7,000亿词例的大型训练语料库。彭博的研究团队利用该语料库的一部分内容,训练了纯解码器(decoder-only)因果语言模型,包含500亿个参数。

  • 模型参数量为500亿,使用了包含3630亿token的金融领域数据集以及3450亿token的通用数据集
  • 隐藏层维度为7680,多头的头数为40
  • 模型采用Unigram tokenizer,AdamW优化器
  • 对BloombergGPT的评估包含了两部分:金融领域评估与通用领域评估
  • 评估对比的其他大语言模型有GPT-NeoX、OPT、BLOOM、GPT-3
  • 在金融领域任务上,BloombergGPT综合表现最好;在通用任务上,BloombergGPT的综合得分同样优于相同参数量级的其他模型,并且在某些任务上的得分要高于参数量更大的模型
  • BloombergGPT模型在金融领域取得好效果的同时,并没有以牺牲模型通用能力为代价
  • 对模型定性评估的结果表明,BloombergGPT可以提高工作效率
  • 出于安全性的考虑,BloogbergGPT模型不会被公开,但是模型训练和评估的相关经验和思考会被分享出来

2、马上消费金融 天镜大模型

马上消费金融天镜大模型在汇集智慧、唤醒知识、众创价值等几个方面比较突出:

  • 汇集智慧方面,主要是应用在人工客服场景,通过大模型提炼萃取一线优秀人工坐席客服经验,汇聚成群体智慧,从而拥有一对多服务客户的能力,也可作为人工坐席的辅助角色,帮助推荐、优化回答该模型已运行近3个月,意图理解准确率达91%,相较于传统AI的68%有较大提升;客户参与率61%,高于传统模型43%的参与率,也高于人工坐席平均28%的水平;
  • 唤醒沉睡知识,主要是高效解决了提取、利用非结构化文档中的数据资料的痛点。例如,将企业招股书、财报、经济预测数据等文件上传后,天镜大模型可以深入解析金融领域专业术语、同时查询定位多个不同文档、洞悉金融图表隐含的信息和强大归纳总结能力;
  • 众创数据价值,主要是为了降低使用数据的门槛。天镜大模型SQL生成平台不再需要代码等专业指令,可直接向AI 说大白话,天镜自动理解需求、展开检索、生成答复。当前,天镜每日线上SQL生成数量650多次,线上SQL生成可执行比例53.4%,SPIDER标准数据集EX得分75.2,线上使用者满意反馈比例82.3%,表现领先行业。

3、阿里巴巴城市大模型 CityGPT

2023 年 7 月 7 日,城市大模型 CityGPT 正式发布,旨在提升智能城市的治理能力,赋能城市经济、产业、商业、文旅、金融等领域,打造真正的城市级大脑。具体地,在认知人工智能领域首次开启了空间场景智能决策以及“元宇宙城市”可交互体验价值链,能够实现对城市-园区-商圈-社区-网点级别的智能计算与研判,为线上线下数实融合的智能决策和场景交互提供具有 AI 自学习能力的“空间 AI 专家顾问”服务。

4、DeepMind生物科技模型AlphaFold2

AlphaFold2通过深度学习和人工神经网络等技术,预测蛋白质的三维结构。在此之前,预测蛋白质结构是一项非常耗时、困难且复杂的任务,需要耗费许多时间和大量的实验数据。AlphaFold2 使得人们可以在数分钟内预测蛋白质的结构。

已知氨基酸顺序的蛋白质分子有1.8亿个,但三维结构信息被彻底看清的还不到0.1%。2021年8月,DeepMind公司在《自然》上宣布已将人类的98.5%的蛋白质预测了一遍,计划年底将预测数量增加到1.3亿个,达到人类已知蛋白质总数的一半,并且公开了AlphaFold 2的源代码,免费开源有关数据集,供全世界科研人员使用。

img

5、谷歌医疗大模型Med-PaLM,AI医生成绩比肩人类

由谷歌Research和DeepMind共同打造的多模态生成模型Med-PaLM M,懂临床语言、懂影像,也懂基因组学。

Med-PaLM 2 是首个在美国医疗执照考试(USMLE)的 MedMCQA 数据集上达到「专家」应试者水平表现的 LLM,准确率达到 85% 以上,也是首个在包括印度 AIIMS 和 NEET 医学考试问题的 MEDMCQA 数据集上达到及格分数的 AI 系统,得分为 72.3%。

在246份真实胸部X光片中,临床医生表示,在高达40.50%的病例中,Med-PaLM M生成的报告都要比专业放射科医生的更受采纳,这表明Med-PaLM M并非“纸上谈兵”,用于临床指日可待。

6、华为盘古气象大模型

华为云盘古气象大模型是首个精度超过传统数值预报方法的AI模型,能够提供秒级全球气象预报,原来预测一个台风未来10天的路径,需要在3000台服务器的高性能计算机集群上花费5小时进行仿真。而现在基于预训练的盘古大模型,通过AI推理的方式,只需1台服务器、1卡配置、10秒时间,就可以获得更精确的预测结果。盘古气象大模型的预测结果包括位势、湿度、风速、温度、海平面气压等,可以应用于台风路径预测、降水预测、寒潮和高温预测等多个气象研究细分场景。

8.7开源人工智能应用案例

1、VMWare

VMWare 部署了 HuggingFace 的 StarCoder 模型,该模型可帮助开发人员生成代码,从而提高开发效率。VMWare 选择自行托管该模型,而不是使用像微软拥有的 Github 的 Copilot 这样的外部系统。

2、Gab Wireless

这家儿童友好型手机公司强调安全和保障,它使用 Hugging Face 公司提供的一套开源模型,为筛选儿童收发的信息添加了一个安全层。这样可以确保在与不认识的人进行互动时,不会出现不恰当的内容。

3、Perplexity

这家炙手可热的初创公司正在通过使用 LLM 来重塑搜索体验。该公司目前只有 50 名员工,但筹集到 7400 万美元。虽然它不符合我们对企业的定义,但它的有趣之处值得一提。当用户向 Perplexity 提出一个问题时,它的引擎会使用大约六个步骤来做出回答,在此过程中还会使用多个 LLM。Perplexity 的员工 Dmitry Shevelenko 说,倒数第二步默认使用自己定制的开源 LLM。这一步是总结 Perplexity 认为符合用户问题的文章或资料来源的材料。Perplexity 在 Mistral 和 Llama 模型的基础上建立模型,并使用 AWS Bedrock 进行微调。

Shevelenko 说,使用 Llama 至关重要,因为它有助于 Perplexity 掌握自己的命运。他说,在 OpenAI 模型上投资,对模型进行微调是不值得的,因为你并不拥有结果。值得注意的是,Perplexity 还同意为 Rabbit R1 提供动力,因此 Rabbit 也将通过 Perplexity 的 API 有效使用开源 LLM。

4、Intuit

Intuit 是 TurboTax、Quickbooks 和 Mailchimp 等软件的提供商,很早就开始构建自己的 LLM 模型,并在驱动其 Intuit Assist 功能的 LLM 混合中利用开源模型,该功能帮助用户处理诸如客户支持、分析和任务完成工作。在采访中,Intuit 的执行官 Ashok Srivastava 说,其内部 LLM 是基于开源构建并在 Intuit 自己的数据上进行训练的。

5、LyRise

这家人才匹配初创公司 LyRise 使用一个建立在 Llama 上的聊天机器人,像人类招聘人员一样互动,帮助企业从非洲各行业的高质量简历库中找到并雇佣顶尖的 AI 和数据人才。

6、Niantic

Pokemon Go 的创造者推出了一个名为 Peridot 的新功能,它使用 Llama 2 生成宠物角色在游戏中的环境特定反应和动画。

9. 大模型和程序员的关系

(1)目前ChatGPT对程序员到底有哪些实质性的帮助?

第一点:Code Review ChatGPT能够理解代码,并针对代码给出针对性的建议和优化方案;

第二点:写测试用例、单元测试、集成测试等,这些ChatGPT都很擅长!

第三点:对线上问题的定位和分析 线上问题的各种疑难杂症,ChatGPT都能胜任!

第四点:SQL的翻译 实现两种数据库的SQL语言转换,比如将Oracle的SQL脚本转换成MySQL的SQL脚本。

(2)有了AI编程,还需要程序员吗?

第一,在冯诺依曼架构体系下,程序需要的是确定性计算;

第二,由于大模型本身的概率性,目前大模型生成的代码还具备一定的随意性和不确定性;

第三,目前大模型更擅长的是一些抽象层次比较低的工作,比如一段代码或一个算法的实现,写一个单元测试等等。而一些抽象层次比较高的工作,比如需求分析、架构设计、领域设计、架构选型等,这些工作反而是大模型不擅长的,而这些工作是比较具备有竞争力的,这恰恰是一些高级程序员以及系统架构师的价值所在。

(3)应用实践AIGC有几层境界?

第一层境界:简单对话; 通过ctrl-c/v出结果,人人都会。

第二层境界:系统掌握Prompt Engineering; 通过系统掌握好提示词工程,真正赋能工作提效。

第三层境界:将AIGC融入业务流程,指挥AIGC完成复杂的任务; 通过掌握AIGC的技能,并完成业务领域知识的深入结合。

第四层境界:拥有自己的大模型; 熟悉大模型的架构原理,通过开源大模型微调,最好能够拥有一定的行业数据壁垒。

第五层境界:参与设计训练大模型; 比如从事ChatGPT等研发工作。 目前,Edison还处于第二层即提示词工程,我们整理了很多针对SDLC(软件开发生命周期)过程中的经典场景的提示词模板来做提效。 那么,你处于哪一层呢?

(4)如何掌握AI大模型开发技能?

第一步:掌握开发AGI时代新应用程序的技能; 比如:大模型应用内核、LangChain开发框架、向量数据库等;

第二步:搞定开发企业级AI Agent的应用技能; 比如:AI Agent、大模型缓存、算力等;

第三步:驾驭开发企业级专有大模型的技能; 比如:RAG、微调等;

第四步:深入应用大模型技术成为开发大师; 比如:大模型预训练、LLMOps等;

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

https://img-blog.csdnimg.cn/img_convert/05840567e2912bcdcdda7b15cba33d93.jpeg

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

https://img-blog.csdnimg.cn/img_convert/05840567e2912bcdcdda7b15cba33d93.jpeg

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值