深入浅出LangChain与智能Agent（三）利用LangChain与人脸问答知识库进行交互

AI老猴子

已于 2024-09-12 12:51:37 修改

阅读量1k

点赞数 22

文章标签： langchain 人工智能大模型 AI大模型 ai Agent 学习

于 2024-08-16 17:00:00 首次发布

本文链接：https://blog.csdn.net/star_nwe/article/details/141232297

版权

利用LangChain与人脸问答知识库进行交互

下面这些技术模块共同构成了一个基于LangChain与人脸知识库进行交互的系统。

模块1: 问题与答案数据的加载

这个模块负责读取问题和答案对，并将它们存储在一个字典结构中，以便后续检索。

def load_qa_data(filepath):
    qa_data = {}
    with open(filepath, 'r', encoding='utf-8') as file:
        lines = file.readlines()
    current_question = None
    answer_lines = []  # 用于累积多行答案的列表
    for line in lines:
        if line.startswith('问题: '):
            if current_question:
                # 将之前问题的答案存储到字典中
                qa_data[current_question] = ' '.join(answer_lines).strip()
            # 去除"问题: "部分，并去除两端空白字符
            current_question = line[len('问题: '):].strip()
            answer_lines = []  # 为新的问题重置答案行列表
        elif current_question:
            # 这是一个答案的一部分，可能不是第一行
            answer_lines.append(line.strip())

    # 不要忘记处理文件中的最后一个问题
    if current_question and answer_lines:
        qa_data[current_question] = ' '.join(answer_lines).strip()

    return qa_data

模块2: 嵌入向量的生成和Faiss索引创建

Faiss 是 Facebook AI Research (FAIR) 精心打造的一款强大向量数据库，专为高效执行相似性搜索和稠密向量聚类而设计。在处理大型数据集时表现尤为出色，能迅速在海量向量中锁定与查询向量最为匹配的项，极大地加速了搜索流程。无论是机器学习还是数据挖掘，Faiss 都是一个不可或缺的工具，常见的应用场景包括但不限于推荐系统、图像搜索和自然语言处理。

除了 Faiss，LangChain 支持的向量数据库范围广泛，覆盖了多种语言和平台。这些数据库包括阿里云的 OpenSearch、AnalyticDB、Annoy、Atlas、AwaDB，以及 Azure Cognitive Search、BagelDB、Cassandra、Chroma、Clarifai 等。此外，还有 ClickHouse Vector Search、Activeloop’s Deep Lake、Dingo，以及各种DocArray搜索能力，如DocArrayHnswSearch和DocArrayInMemorySearch。ElasticSearch、Hologres、LanceDB、Marqo、MatchingEngine、Meilisearch、Milvus、MongoDB Atlas 和 MyScale 也在支持之列。OpenSearch 和 pg_embedding 也提供了优质的搜索服务。这些多样化的数据库选择使得LangChain能够在不同的环境和需求下提供灵活、高效的搜索能力。

OpenAIEmbeddings() 初始化

embeddings_model = OpenAIEmbeddings()

这一行创建了一个OpenAIEmbeddings实例，它是用来生成文本embedding的。这些embedding是高维向量，可以捕捉文本内容的语义信息，用于文本之间的相似性比较。

创建FAISS索引

#创建FAISS索引
def create_faiss_index(embedding_matrix):
    dimension = embedding_matrix.shape[1]  # 获取向量的维度
    index = faiss.IndexFlatL2(dimension)  # 创建基于L2距离的FAISS索引
    index.add(embedding_matrix.astype(np.float32))  # 向索引中添加向量
    return index

create_faiss_index函数接受一个embedding矩阵（通常是二维数组，其中每行是一个向量），初始化一个FAISS索引，并将这些向量添加到索引中。这个索引后续将用于相似性搜索。

在FAISS索引中搜索

def search_faiss_index(query_embedding, index):
    query_embedding = np.array(query_embedding).astype(np.float32)  # 确保查询向量为float32类型
    _, indices = index.search(np.array([query_embedding]), 1)  # 在索引中搜索最相似的向量
    return indices[0][0]  # 返回最相似向量的索引

search_faiss_index函数获取一个查询向量和一个FAISS索引作为输入，然后使用这个索引来找到与查询向量最相似的存储向量。函数返回最相似项的索引，这通常用来在一个数据库或列表中检索具体项。

模块3: 精确匹配查询

当用户提出一个特定的问题时，这个功能会根据用户的输入在知识库中查找精确匹配的问题。

def search_by_exact_query(user_query):
    # 从文件加载问题和答案
    qa_data = load_qa_data(filepath)

    # 获取答案并打印
    return(get_answer(qa_data, user_query))

模块4: 模糊匹配查询

这个模块使用嵌入向量和Faiss索引来找到与用户查询最相似的问题，并返回相应的答案。

1.初始化文本嵌入模型。

2.使用文本嵌入模型将文本转换为向量。

3.使用这些嵌入向量创建FAISS索引。

4.当用户提出查询时，将查询文本也转换为嵌入向量。

5.使用FAISS索引找到最相似的嵌入向量。

def search_by_fuzzy_query(user_query):
    # 从文件加载问题和答案
    qa_data = load_qa_data(filepath)
    # Get embedding vectors for all questions and convert to numpy array
    questions = list(qa_data.keys())
    question_embeddings_list = embeddings_model.embed_documents(questions)
    question_embeddings = np.array(question_embeddings_list)

    # Create the faiss index
    faiss_index = create_faiss_index(question_embeddings)

    # # Prompt user for a query and process
    user_query_embedding_list = embeddings_model.embed_documents([user_query])
    user_query_embedding = np.array(user_query_embedding_list[0])

    # Search the faiss index for the most similar question
    closest_question_index = search_faiss_index(user_query_embedding, faiss_index)
    closest_question = questions[closest_question_index]

    # Print the closest question's answer
    return(qa_data[closest_question])

search_by_exact 和 search_by_fuzzy 工具

在tools列表中，增加search_by_exact 和 search_by_fuzzy 两个工具能力，其他逻辑不变。

tools = [
    Tool(
        name="search_by_exact",
        func=search_by_exact_query,
        description="当需要准确回答用户问题时使用此工具。使用时需提供参数['query']。如果查询为错误代码，直接查询并返回对应的错误原因和解决方法；如果观察结果显示有必要或可选发送邮件，请调用send_email工具。"
    ),
    Tool(
        name="search_by_fuzzy",
        func=search_by_fuzzy_query,
        description="当需要回答用户问题时使用此工具。使用时需提供参数['query']。如果查询为错误代码，直接查询并返回对应的错误原因和解决方法；如果查询非错误代码，可咨询此工具相关解决方案；如果观察结果显示有必要或可选发送邮件，请调用send_email工具。"
    ),
    send_email_tool,  # Assuming definition is provided elsewhere
    compare_scores_tool,
    local_group_size_tool,
    actual_group_size_tool,
    blacklist_query_tool,
    zmng_query_tool
]