大模型(LLM)预训练之数据处理-文档提取

word数据处理

抛开其中的图片,其实比较难搞的就是其中对于段落中的表格正确识别。

Python---提取Word中的文本内容_python提取word指定内容-CSDN博客

Word 文档中的高效内容提取 | Aspose.Words Python 文档管理 API

这个Aspose是付费的 只能试用给出一部分

而且访问Table时报错无法解决   

还有一个问题是官网文档给出的教程是C#的

Traceback (most recent call last):
  File "/mnt/user_database/project/Langchain-Chatchat/word_extract.py", line 67, in <module>
    main()
  File "/mnt/user_database/project/Langchain-Chatchat/word_extract.py", line 42, in main
    print(f"表格共有 {table.rows.count} 行和 {table.first_row.cells.count} 列")
                      ^^^^^^^^^^
AttributeError: 'aspose.words.Node' object has no attribute 'rows'

有空取尝试C#

VSCode配置C#运行环境教程 - 掘金 (juejin.cn)

尝试了一下还是有些难搞 

还是一行一行的读取

pdf提取

几种方式

paddleocr

然后是langchain的自带的pdf提取

ragflow这个好像在demo网页中能够提取

同时给出了ocr方案ragflow/deepdoc/README_zh.md at main · infiniflow/ragflow (github.com)

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值