LVM(OCR-free)
使用视觉大模型提取关键信息将是最终阶段。
目前代表:qwen-vl-max
弱点:存在不稳定性,性能良好的模型不容易训练
OCR+LLM(OCR-Driven)
OCR深度学习模型识别文字,大语言模型提前信息。
目前代表:读光 Doc Master
弱点:需要对不同的版面进行分类处理
PaddleOCR-KIE
百度飞桨的关键信息提取套件。
弱点:只能适应固定版面格式
OCR+LLM是较易实现且效果稳定有保障的方法。
标准流程:
OCR→Layout→LLM