python 搜索 PDF文件 内容

我想做个小东东,需要读取pdf文件的文本内容,然后搜索某个关键词,返回这个关键词所在的页的页码,折腾我好几天了。首先看上了pypdf,啃了半天
洋文,发现这东西只能分割合并pdf文件,读取pdf文件的作者、标题等信息。然后又琢磨ReportLab,硬啃洋文,发现这东西主要是生成pdf文
件,好像也没有读取的方法(生成和读取难道是不相干的吗?),于是又在论坛一阵狂搜,发现有仁兄跟我类似的需要,高人指点他去研究poppler,我放
狗一搜,找到poppler的介绍页面,看到“The documentation is actually missing, help
wanted :) ”,心里就拔凉拔凉滴,俺是新手,有文档都要尚且研究半天,何况没文档啊,那是神人做的事啊,各位大侠,能否给指点一条明路,已经
折腾我好几天了,还没搞定?我只是想用python读取一下pdf文件的文本内容啊。
--~--~---------~--~----~------------~-------~--~----~
来自: `python-cn`:CPyUG ~ 华蟒用户组 | 发言:python-cn@...
退订: http://tinyurl.com/45a9tb /针对163/qq邮箱:http://tinyurl.com/4dg6hc
详情: http://groups.google.com/group/python-cn
严正: 理解列表! 智慧提问! http://wiki.woodpecker.org.cn/moin/AskForHelp
-~----------~----~----~----~------~
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值