python 搜索 PDF文件内容

最新推荐文章于 2024-06-19 11:21:58 发布

fudh_123

最新推荐文章于 2024-06-19 11:21:58 发布

阅读量2.6k

点赞数

分类专栏： python 文章标签： Python Google Web XP Linux

我想做个小东东，需要读取pdf文件的文本内容，然后搜索某个关键词，返回这个关键词所在的页的页码，折腾我好几天了。首先看上了pypdf，啃了半天
洋文，发现这东西只能分割合并pdf文件，读取pdf文件的作者、标题等信息。然后又琢磨ReportLab，硬啃洋文，发现这东西主要是生成pdf文
件，好像也没有读取的方法（生成和读取难道是不相干的吗？），于是又在论坛一阵狂搜，发现有仁兄跟我类似的需要，高人指点他去研究poppler，我放
狗一搜，找到poppler的介绍页面，看到“The documentation is actually missing, help
wanted :) ”，心里就拔凉拔凉滴，俺是新手，有文档都要尚且研究半天，何况没文档啊，那是神人做的事啊，各位大侠，能否给指点一条明路，已经
折腾我好几天了，还没搞定？我只是想用python读取一下pdf文件的文本内容啊。
--~--~---------~--~----~------------~-------~--~----~
来自: `python-cn`:CPyUG ~ 华蟒用户组 | 发言:python-cn@...
退订: http://tinyurl.com/45a9tb /针对163/qq邮箱:http://tinyurl.com/4dg6hc
详情: http://groups.google.com/group/python-cn
严正: 理解列表! 智慧提问! http://wiki.woodpecker.org.cn/moin/AskForHelp
-~----------~----~----~----~------~

最低0.47元/天解锁文章

fudh_123

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
python 搜索 PDF文件内容

我想做个小东东，需要读取pdf文件的文本内容，然后搜索某个关键词，返回这个关键词所在的页的页码，折腾我好几天了。首先看上了pypdf，啃了半天洋文，发现这东西只能分割合并pdf文件，读取pdf文件的作者、标题等信息。然后又琢磨ReportLab，硬啃洋文，发现这东西主要是生成pdf文件，好像也没有读取的方法（生成和读取难道是不相干的吗？），于是又在论坛一阵狂搜，发现有仁兄跟我类似的需要，高...
复制链接

扫一扫