如何让语言模型回答更靠谱：用你的数据构建AI智能问答-CSDN博客

语言模型越来越受欢迎，原因之一是它们能生成自然、连贯、甚至令人印象深刻的回答。尤其在聊天对话中，我们只需要用日常语言提问，就能获得看起来很有道理的答复。但问题来了——这些回答到底靠不靠谱？这就涉及一个关键概念：groundedness（有据可依）。

groundedness 表示语言模型的回答是否“有根有据”，也就是：

语言模型的训练数据，通常来自互联网上的大量文字。这意味着它并不了解你的具体业务或文档，回答也是“猜”出来的，甚至有时会编造不存在的东西。

例如：

我该用哪个产品来完成 X？

[AI 回答]：推荐使用 XR-2Z 产品。

但这个产品也许根本不存在！

为了解决“凭空捏造”的问题，可以用 RAG（检索增强生成）：

这样，AI 生成的内容不仅语法正确，而且内容真实、信息有据。

可以用 Azure AI Foundry 来构建自己的“智能助手（Agent）”，让它查指定的数据，再结合大模型生成回答。支持的数据来源包括：

最常用的是 Azure AI Search ——它可以对文件和数据内容建立搜索索引，让 AI 快速查找资料。常见检索方式：

这两句话意思很接近：

"The children played joyfully in the park."
"Kids happily ran around the playground."

这两段文字虽然用词不同，但在语义上是相近的。通过为文本生成向量嵌入，可以用数学方式计算它们之间的语义关系。

你可以想象把这些文档中的关键词提取出来，并在一个多维空间中以向量形式表示：

不同向量之间的距离可以通过计算它们夹角的余弦值来衡量，这被称为余弦相似度（cosine similarity）。换句话说，余弦相似度可用于衡量文档与查询之间的语义相似性。

通过用向量表示词语及其含义，即便你的数据来源包含不同格式（如文本或图片）或语言，系统也能从中提取出相关的上下文信息。

如果你希望使用向量搜索来查询数据，就需要在创建搜索索引时生成嵌入向量。你可以使用 Azure AI Foundry中提供的 Azure OpenAI嵌入模型来为你的搜索索引生成这些向量。

如果想构建一个基于自有数据、真实可靠的智能问答系统，RAG 值得一试。