NLP（六十九）智能文档问答助手升级

置顶山阴少年

已于 2023-09-10 09:34:03 修改

阅读量783

点赞数 1

分类专栏： NLP 文章标签：文档问答 LLM

于 2023-09-09 22:46:34 首次发布

本文链接：https://blog.csdn.net/jclian91/article/details/132783378

版权

NLP 专栏收录该内容

78 篇文章 249 订阅

订阅专栏

本文在笔者之前研发的大模型智能文档问答项目中，开发更进一步，支持多种类型文档和URL链接，支持多种大模型接入，且使用更方便、高效。

项目介绍

在文章NLP（六十一）使用Baichuan-13B-Chat模型构建智能文档中，笔者详细介绍了如何使用Baichuan-13B-Chat模型来构建智能文档问答助手。

一般，使用大模型来实现文档问答功能的流程图如下：

LangChain文档问答流程

本次，笔者在之前的项目中更进一步，支持的功能如下：

支持多种格式文档（包括txt, pdf, docx）和URL链接
问答可视化页面
问答可追溯，加入高亮显示
单/多模型调用
模型效果对比

说明如下：

支持的文档格式由LangChain提供，URL链接的解析由LangChain中的 selenium 和 unstructured，可支持JavaScript渲染的页面。但网页解析（或者说爬虫）是一项复杂而艰巨的任务，不可能在本项目中实现所有的网页解析。
可视化问答页面由Gradio模块实现
支持单模型或多模型调用，并且可以提供问答溯源。同时，还支持不同模型回答结果的比对，该想法来源于OpenCompass .

在工程开发上，加入的特性（features）如下：

丰富使用文档
加入配置文件
增加日志调用
ES分词器支持用户词典
Milvus支持初步筛选的阈值配置

本项目已开源至Github，代码实现可参考document_qa_with_llm，这里不再讲解代码细节。

支持文档格式

本项目原先只支持txt格式，现在已支持多种格式文档（包括txt, pdf, docx）和URL链接，这得益于LangChain框架中的文档加载模块，使得各种格式的文档加载变得更加统一、简洁、高效。

本项目中的文件解析脚本如下：

# -*- coding: utf-8 -*-
from langchain.document_loaders import TextLoader, PyPDFLoader, Docx2txtLoader, SeleniumURLLoader

from utils.logger import logger


class FileParser(object):
    def __init__(self, file_path):
        self.file_path = file_path

    def txt_loader(self):
        documents = TextLoader(self.file_path, encoding='utf-8').load()
        return documents

    def pdf_loader(self):
        loader = PyPDFLoader(self.file_path)
        documents = loader.load_and_split()
        return documents

    def docx_loader(self):
        loader = Docx2txtLoader(self.file_path)
        documents = loader.load()
        return documents

    def url_loader(self):
        loader = SeleniumURLLoader(urls=[self.file_path])
        documents = loader.load()
        return documents

    def parse(self):
        logger.info(f'parse file: {self.file_path}')
        if self.file_path.endswith(".txt"):
            return self.txt_loader()
        elif self.file_path.endswith(".pdf"):
            return self.pdf_loader()
        elif self.file_path.endswith(".docx"):
            return self.docx_loader()
        elif "http" in self.file_path:
            return self.url_loader()
        else:
            logger.error("unsupported document type!")
            return []


if __name__ == '__main__':
    txt_file_path = "/Users/admin/PycharmProjects/document_qa_with_llm/files/gdp.txt"
    content = FileParser(txt_file_path).parse()
    print(content)

    pdf_file_path = "/Users/admin/PycharmProjects/document_qa_with_llm/files/oppo_n3_flip.pdf"
    content = FileParser(pdf_file_path).parse()
    print(content)

    docx_file_path = "/Users/admin/PycharmProjects/document_qa_with_llm/files/haicaihua.docx"
    content = FileParser(docx_file_path).parse()
    print(content)

    url = "https://gaokao.xdf.cn/202303/12967078.html"
    url = "https://www.hntv.tv/50rd/article/1/1700396378818207745?v=1.0"
    content = FileParser(url).parse()
    print(content)