读光-表格结构识别-有线表格 使用指南

1.下载代码安装环境

git clone https://github.com/RapidAI/TableStructureRec.git
pip install -r requirements.txt

2.修改图片存放路径

在这里插入图片描述

运行main代码 得到多个html文件 使用以下代码将多个html文件 合成一个html文件

from bs4 import BeautifulSoup
import os

# 设置输入文件夹和输出文件路径
input_folder = r'input_images'
output_file = r'/merged.html'

# 存储所有表格内容的列表
all_tables = []

# 遍历文件夹中的所有HTML文件
for filename in os.listdir(input_folder):
    if filename.endswith('.html'):
        filepath = os.path.join(input_folder, filename)

        # 读取HTML文件内容
        with open(filepath, 'r', encoding='utf-8') as file:
            html_content = file.read()

        # 使用Beautiful Soup解析HTML
        soup = BeautifulSoup(html_content, 'html.parser')

        # 查找所有表格
        tables = soup.find_all('table')

        # 将每个表格的内容添加到列表中
        for table in tables:
            all_tables.append(str(table))  # 将Beautiful Soup对象转换为字符串存储

# 创建输出HTML文件
with open(output_file, 'w', encoding='utf-8') as outfile:
    # 写入HTML头部和开始标签
    outfile.write('<!DOCTYPE html>\n<html>\n<head>\n<title>Merged Tables</title>\n</head>\n<body>\n')

    # 逐一将所有表格内容写入输出文件
    for table_html in all_tables:
        outfile.write(table_html)
        outfile.write('\n')  # 每个表格之间添加换行

    # 写入HTML结束标签
    outfile.write('</body>\n</html>\n')

print(f'Merged HTML file saved to: {output_file}')

结果

在这里插入图片描述

总结

paddleocr 对于大部分表格内容识别准确率比较高 不能很好识别复杂表格格式 表格里的数据出现错误的概率比较低 遇到一些处理失败的时候 处理结果比较糟糕

wired_table_rec 能识别几乎所有的表格 能够将表格的格式 完整正确的表示出来 问题是 在表格内容识别上会出现一些数据没有识别出来的错误

  • 6
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值