我想做个小东东,需要读取pdf文件的文本内容,然后搜索某个关键词,返回这个关键词所在的页的页码,折腾我好几天了。首先看上了pypdf,啃了半天
洋文,发现这东西只能分割合并pdf文件,读取pdf文件的作者、标题等信息。然后又琢磨ReportLab,硬啃洋文,发现这东西主要是生成pdf文
件,好像也没有读取的方法(生成和读取难道是不相干的吗?),于是又在论坛一阵狂搜,发现有仁兄跟我类似的需要,高人指点他去研究poppler,我放
狗一搜,找到poppler的介绍页面,看到“The documentation is actually missing, help
wanted :) ”,心里就拔凉拔凉滴,俺是新手,有文档都要尚且研究半天,何况没文档啊,那是神人做的事啊,各位大侠,能否给指点一条明路,已经
折腾我好几天了,还没搞定?我只是想用python读取一下pdf文件的文本内容啊。
--~--~---------~--~----~------------~-------~--~----~
来自: `python-cn`:CPyUG ~ 华蟒用户组 | 发言:python-cn@...
退订: http://tinyurl.com/45a9tb /针对163/qq邮箱:http://tinyurl.com/4dg6hc
详情: http://groups.google.com/group/python-cn
严正: 理解列表! 智慧提问! http://wiki.woodpecker.org.cn/moin/AskForHelp
-~----------~----~----~----~------~
洋文,发现这东西只能分割合并pdf文件,读取pdf文件的作者、标题等信息。然后又琢磨ReportLab,硬啃洋文,发现这东西主要是生成pdf文
件,好像也没有读取的方法(生成和读取难道是不相干的吗?),于是又在论坛一阵狂搜,发现有仁兄跟我类似的需要,高人指点他去研究poppler,我放
狗一搜,找到poppler的介绍页面,看到“The documentation is actually missing, help
wanted :) ”,心里就拔凉拔凉滴,俺是新手,有文档都要尚且研究半天,何况没文档啊,那是神人做的事啊,各位大侠,能否给指点一条明路,已经
折腾我好几天了,还没搞定?我只是想用python读取一下pdf文件的文本内容啊。
--~--~---------~--~----~------------~-------~--~----~
来自: `python-cn`:CPyUG ~ 华蟒用户组 | 发言:python-cn@...
退订: http://tinyurl.com/45a9tb /针对163/qq邮箱:http://tinyurl.com/4dg6hc
详情: http://groups.google.com/group/python-cn
严正: 理解列表! 智慧提问! http://wiki.woodpecker.org.cn/moin/AskForHelp
-~----------~----~----~----~------~