Ambar: Document Search Engine

Ambar是一个具有自动抓取、OCR和全文搜索功能的文档搜索引擎,支持多种文件类型,包括大文件。通过单个DockerCompose轻松部署,并可通过RESTAPI集成到工作流中。特别说明了对FTP支持和安装注意事项。
摘要由CSDN通过智能技术生成

Ambar:文档搜索引擎

github:https://github.com/RD17/ambar
官方地址:https://ambar.cloud/

Ambar是一个开源的文档搜索引擎,具有自动抓取、OCR、标记和即时全文搜索功能。
Ambar定义了一种在工作流中实现全文文档搜索的新方法。
1、使用单个docker compose文件轻松部署Ambar
2、对您的文档和图像内容执行类似谷歌的搜索
3、标记您的文档
4、使用简单的REST API将Ambar集成到您的工作流程中

爬网
Ambar2.0仅支持本地fs爬网,如果您需要爬网FTP位置的SMB共享,只需使用标准的linux工具进行装载即可。爬网是自动的,不需要时间表,因为爬网程序监视文件系统事件并自动处理新的、更改的和删除的文件。

内容提取
Ambar支持大文件(>30MB)

支持的文件类型:
ZIP存档
邮件存档(PST)
MS Office文档(Word、Excel、Powerpoint、Visio、Publisher)
图像OCR
带有附件的电子邮件
Adobe PDF(带OCR)
OCR语言:Eng、Rus、Ita、Deu、Fra、Spa、Pl、Nld
OpenOffice文档
RTF,明文
HTML/XHTML
多线程处理

安装
注意:Ambar要求Docker运行
你可以自己构建Docker镜像

  • 8
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值