AI大语言模型LLM学习-Token及流式响应

程序员老司机

已于 2024-09-08 09:26:37 修改

阅读量959

点赞数 17

分类专栏： AI 文章标签：人工智能语言模型学习 ai编程

于 2024-09-06 22:54:31 首次发布

本文链接：https://blog.csdn.net/fengqiuhuang123/article/details/141949949

版权

AI 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

token是什么？

比较官方的token解释：

Token是对输入文本进行分割和编码时的最小单位。它可以是单词、子词、字符或其他形式的文本片段。

token 是自然语言处理的最细粒度。简单点说就是，LLM的输入是一个个的 token，输出也是一个个的 token。
token 是由LLM处理的基本数据单元。在文本的背景下，一个token 可以是一个单词、单词的一部分（子词）或甚至是一个字符，这取决于token 化过程。

LLM的流式输出

单个LLM调用的运行时间通常比传统资源请求运行得更长，当构建需要多个推理步骤的复杂的链式或代理时，这种情况会更加复杂为了解决这个问题，我们可以采用流式输出，输出一旦生成，就可以立即显示。

所谓的流式输出，就是类似打字机式的方式，一个字或一个词的输出，给用户一种答案逐渐出现的动画效果。市面上的LLM模型案例基本上都是以流式输出的方式展示给用户的。
本文只介绍流式输出的概念，之后的文章会分别介绍流式WebAPI的搭建，基于VUE3前端技术构建问答页面。

实践

如果没有看过上一篇文章，可以前去了解下:
AI大语言模型LLM学习-入门篇

依赖安装

pip install langchain

代码

from langchain_openai import ChatOpenAI
from langchain_core.prompts import ChatPromptTemplate
api_key = "api_key(平台注册获得)"

model = "qwen2-72b-instruct"

llm = ChatOpenAI(
    base_url="https://dashscope.aliyuncs.com/compatible-mode/v1",
    api_key=api_key,
    model=model,
    streaming=True,
)
prompt_template = ChatPromptTemplate.from_messages([
    ("system", "你是一个很出色的历史老师，给我讲讲历史人物的故事吧。"),
    ("user", "{input}")
])

#使用|操作符将prompt_template和llm连接在一起，创建一个chain对象。
chain =prompt_template | llm

while True:
    question = input("\n请输入你需要了解的历史人物,按q退出:")
    if question == "q":
        break
    else:
        # 使用流式输出
        for token in chain.stream({"input": question}):
            print(token.content, end="")

运行效果：

在langchain中查看StreamingStdOutCallbackHandler的源码，可以找到几个核心的方法：
on_llm_start(self, serialized: Dict[str, Any], prompts: List[str], **kwargs: Any)
on_llm_new_token(self, token: str, **kwargs: Any)
on_llm_end(self, response: LLMResult, **kwargs: Any)

在这里插入图片描述
根据on_llm_new_token这个方法名，大家就会明白为啥市面上的问答型AI都是以打字机式的方式进行输出，第一次遇到这种打字机模式，我在心里暗骂那帮前端程序员：会做几个特效就NB了，现在在此向这帮前端程序员表达我深深的歉意。