TIKA
Tika下载
- server.jar
http://tika.apache.org/download.html
下载server版,需要java运行环境。注:
JAVA9默认缺少server运行所需要的xml.bind包,需要另行解决,JAVA8无问题。
- docker
docker pull logicalspark/docker-tikaserver # only on initial download/update
docker run --rm -p 9998:9998 logicalspark/docker-tikaserver
- app.jar
app也有server模式,但他并非HTPP协议,所以无法使用curl调试。
- maven
Docker Server
- 测试服务器
curl -X GET http://localhost:9998/tika
- 获取meta
curl -T test.pdf http://localhost:9998/meta --header "Accept: application/json"
- 获取文档内容
curl -T test.pdf http://localhost:9998/tika --header "Accept: text/html" # 返回html,带标签,可不带header
文档
https://wiki.apache.org/tika/TikaJAXRS