【Ragflow】25.Ragflow-plus开发日志：excel文件解析新思路/公式解析适配

zstar-_

于 2025-06-03 09:55:26 发布

阅读量1.4k

点赞数 17

分类专栏：大模型文章标签： excel 算法人工智能

本文链接：https://blog.csdn.net/qq1198768105/article/details/148395010

版权

大模型专栏收录该内容

36 篇文章

订阅专栏

引言

RagflowPlus v0.3.0 版本中，增加了对excel文件的解析支持，但收到反馈，说效果并不佳。

以下测试文件内容来自群友反馈提供，数据已脱敏处理。

示例数据节选

经系统解析后，分块效果如下：

v0.3.0版本解析效果

可以看到，由于该文件包含很多列信息，导致表格被截断，同一行信息完全错位，分散到了不同的chunk中。

表格解析新思路

其实问题就出在对表格文件的处理上，直接套用MinerU的文件处理管线，会先通过LibreOffice将文件转成pdf的形式，再进行表格区域识别。

其实，excel本身就是格式化的表格，这样的处理方式，就像是拿尼康八百定去拍人物写真，上重装备，还拍不好。

既然excel已经是格式化的文件，只需要用pandas去逐行读取就行了。

考虑一般表格都会有表头，每一行内容需要和表头关联，因此，每个chunk根据表头+当前行的形式划分即可，示例代码如下：

import pandas as pd


def parse_excel(file_path):
    # 读取Excel文件
    df = pd.read_excel(file_path)
    # 获取表头
    headers = df.columns.tolist()
    blocks = []

    for _, row in df.iterrows():
        # 构建HTML表格
        html_table = "<html><body><table><tr>{}</tr><tr>{}</tr></table></body></html>".format("".join(f"<td>{col}</td>" for col in headers), "".join(f"<td>{row[col]}</td>" for col in headers))
        block = {"type": "table", "img_path": "", "table_caption": [], "table_footnote": [], "table_body": f"{html_table}", "page_idx": 0}

        blocks.append(block)

    return blocks


if __name__ == "__main__":
    file_path = "test_excel.xls"
    parse_excel_result = parse_excel(file_path)
    print(parse_excel_result)