AI大语言模型LLM学习-Token及流式响应

token是什么?


比较官方的token解释:

Token是对输入文本进行分割和编码时的最小单位。它可以是单词、子词、字符或其他形式的文本片段。

  • token 是自然语言处理的最细粒度。简单点说就是,LLM的输入是一个个的 token,输出也是一个个的 token。
  • token 是由LLM处理的基本数据单元。在文本的背景下,一个token 可以是一个单词、单词的一部分(子词)或甚至是一个字符,这取决于token 化过程。

LLM的流式输出

单个LLM调用的运行时间通常比传统资源请求运行得更长,当构建需要多个推理步骤的复杂的链式或代理时,这种情况会更加复杂为了解决这个问题,我们可以采用流式输出,输出一旦生成,就可以立即显示。

  • 所谓的流式输出,就是类似打字机式的方式,一个字或一个词的输出,给用户一种答案逐渐出现的动画效果。市面上的LLM模型案例基本上都是以流式输出的方式展示给用户的。
  • 本文只介绍流式输出的概念,之后的文章会分别介绍流式WebAPI的搭建,基于VUE3前端技术构建问答页面。

实践


如果没有看过上一篇文章,可以前去了解下:
AI大语言模型LLM学习-入门篇

  • 依赖安装
pip install langchain
  • 代码
from langchain_openai import ChatOpenAI
from langchain_core.prompts import ChatPromptTemplate
api_key = "api_key(平台注册获得)"

model = "qwen2-72b-instruct"

llm = ChatOpenAI(
    base_url="https://dashscope.aliyuncs.com/compatible-mode/v1",
    api_key=api_key,
    model=model,
    streaming=True,
)
prompt_template = ChatPromptTemplate.from_messages([
    ("system", "你是一个很出色的历史老师,给我讲讲历史人物的故事吧。"),
    ("user", "{input}")
])

#使用|操作符将prompt_template和llm连接在一起,创建一个chain对象。
chain =prompt_template | llm

while True:
    question = input("\n请输入你需要了解的历史人物,按q退出:")
    if question == "q":
        break
    else:
        # 使用流式输出
        for token in chain.stream({"input": question}):
            print(token.content, end="")
  • 运行效果:
    在这里插入图片描述

在langchain中查看StreamingStdOutCallbackHandler的源码,可以找到几个核心的方法:
on_llm_start(self, serialized: Dict[str, Any], prompts: List[str], **kwargs: Any)
on_llm_new_token(self, token: str, **kwargs: Any)
on_llm_end(self, response: LLMResult, **kwargs: Any)

在这里插入图片描述
根据on_llm_new_token这个方法名,大家就会明白为啥市面上的问答型AI都是以打字机式的方式进行输出,第一次遇到这种打字机模式,我在心里暗骂那帮前端程序员:会做几个特效就NB了,现在在此向这帮前端程序员表达我深深的歉意。

  • 17
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值