Python_Tika

本文档介绍了如何使用Python中的Tika库解析PDF文档内容,当遇到`RuntimeError: Unable to start Tika server`错误时,问题在于缺少Java环境。解决方案是下载并配置Java环境,确保环境变量设置正确,并重启PyCharm或Jupyter Notebook。通过示例代码展示了如何使用Tika从PDF中提取文本内容。
摘要由CSDN通过智能技术生成

Tika有一个解析器库,可以分析各种文档格式的内容,并提取它们。然后检测所述文档的类型,它从解析器库选择的适当的分析器,并传递该文档。不同类别的Tika方法来解析不同的文件格式。过程中可能会报错
报错:
Use tika with python, runtimeerror: unable to start tika server
解决:
这个是缺java包,可以去java官网(https://www.java.com/zh-CN/download/)中下载,记得吧环境变量配上,以及重新启动pycharm或jupyter notebook

python 下面如何使用

from tika import parser
parsed = parser.from_file("test1.pdf")
print(parsed['content'])

‘\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n带有插入和/或拉出操作段的印制线路插件操纵件\n\n\nwww.soopat.com\n\n注:本页蓝色字体部分可点击查询相关专利\n\nSooPAT\n\n带有插入和/或拉出操作段的印制\n线路插件操纵件\n申请号:00818214.0\n申请日:2000-08-03\n\n申请(专利权)人 利塔尔RES电子系统两合公司\n\n地址 德国埃肯塔尔\n\n发明(设计)人 罗尔夫·贝伦斯 沃纳·柯伯 西格弗里德·库勒 库尔特-迈\n克尔·谢弗\n\n主分类号 H05K7/14\n\n分类号 H05K7/14\n\n公开(公告)号 1421116\n\n公开(公告)日 2003-05-28\n\n专利代理机构 北京市柳沈律师事务所\n\n代理人 侯宇 陶凤波\n\nwww.soopat.com\nhttp://www.soopat.com/Home/Result?SearchWord=00818214\nhttp://www.soopat.com/Home/Result?SearchWord=SQR%3a(%e5%88%a9%e5%a1%94%e5%b0%94RES%e7%94%b5%e5%ad%90%e7%b3%bb%e7%bb%9f%e4%b8%a4%e5%90%88%e5%85%ac%e5%8f%b8)\nhttp://www.soopat.com/Home/Result?SearchWord=DZ%3a(%e5%be%b7%e5%9b%bd%e5%9f%83%e8%82%af%e5%a1%94%e5%b0%94)\nhttp://www.soopat.com/Home/Result?SearchWord=FMR%3a(%e7%bd%97%e5%b0%94%e5%a4%ab%c2%b7%e8%b4%9d%e4%bc%a6%e6%96%af)\nhttp://www.soopat.com/Home/Result?SearchWord=FMR%3a(%e6%b2%83%e7%ba%b3%c2%b7%e6%9f%af%e4%bc%af)\nhttp://www.soopat.com/Home/Result?SearchWord=FMR%3a(%e8%a5%bf%e6%a0%bc%e5%bc%97%e9%87%8c%e5%be%b7%c2%b7%e5%ba%93%e5%8b%92)\nhttp://www.soopat.com/Home/Result?SearchWord=FMR%3a(%e5%ba%93%e5%b0%94%e7%89%b9-%e8%bf%88%e5%85%8b%e5%b0%94%c2%b7%e8%b0%a2%e5%bc%97)\nhttp://www.soopat.com/Home/Result?SearchWord=FMR%3a(%e5%ba%93%e5%b0%94%e7%89%b9-%e8%bf%88%e5%85%8b%e5%b0%94%c2%b7%e8%b0%a2%e5%bc%97)\nhttp://www.soopat.com/Home/Result?SearchWord=ZFLH%3a(H05K7%2f14)\nhttp://www.soopat.com/Home/Result?SearchWord=FLH%3a(H05K7%2f14)\nhttp://www.soopat.com/Home/Result?SearchWord=GKH%3a(1421116)\nhttp://www.soopat.com/Home/Result?SearchWord=GKRQ%3a(2003-05-28)\nhttp://www.soopat.com/Home/Result?SearchWord=ZLDLJG%3a(%e5%8c%97%e4%ba%ac%e5%b8%82%e6%9f%b3%e6%b2%88%e5%be%8b%e5%b8%88%e4%ba%8b%e5%8a%a1%e6%89%80)\nhttp://www.soopat.com/Home/Result?SearchWord=DLR%3a(%e4%be%af%e5%ae%87)\nhttp://www.soopat.com/Home/Result?SearchWord=DLR%3a(%e9%99%b6%e5%87%a4%e6%b3%a2)\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n’

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值