word数据处理
抛开其中的图片,其实比较难搞的就是其中对于段落中的表格正确识别。
Python---提取Word中的文本内容_python提取word指定内容-CSDN博客
Word 文档中的高效内容提取 | Aspose.Words Python 文档管理 API
这个Aspose是付费的 只能试用给出一部分
而且访问Table时报错无法解决
还有一个问题是官网文档给出的教程是C#的
Traceback (most recent call last):
File "/mnt/user_database/project/Langchain-Chatchat/word_extract.py", line 67, in <module>
main()
File "/mnt/user_database/project/Langchain-Chatchat/word_extract.py", line 42, in main
print(f"表格共有 {table.rows.count} 行和 {table.first_row.cells.count} 列")
^^^^^^^^^^
AttributeError: 'aspose.words.Node' object has no attribute 'rows'
有空取尝试C#
VSCode配置C#运行环境教程 - 掘金 (juejin.cn)
尝试了一下还是有些难搞
还是一行一行的读取
pdf提取
几种方式
paddleocr
然后是langchain的自带的pdf提取
ragflow这个好像在demo网页中能够提取
同时给出了ocr方案ragflow/deepdoc/README_zh.md at main · infiniflow/ragflow (github.com)