java -jar tika-server-x.x.jar
替换x.x为你下载的版本号。默认情况下,Tika服务器会监听9998端口。
docker安装方式
docker search apache/tika
docker run --name tika -d -p 0.0.0.0:9998:9998 apache/tika
安装Python Tika库
Python的Tika库封装了与Tika服务器交互的复杂性,使得在Python中使用Tika变得十分简单。通过以下命令安装:
pip install tika
提取文件内容
安装tika库并启动Tika服务器后,就可以编写Python代码来提取文件内容了。
示例:提取文档内容和元数据
from tika import parser
serverURL = 'http://127.0.0.1:9998'
filepath = 'path/to/your/test.txt'
parsed = parser.from_file(filepath,serverURL)
print("Text Content:\n", parsed["content"])
print("\nMetadata:", parsed["metadata"])
解压缩包并提取内容
除了提取单个文件的内容,Tika还能处理压缩文件,如ZIP或TAR包,使你能够访问包内的文件内容。以下示例演示如何处理压缩包: