爬虫
文章平均质量分 61
jie1521836
这个作者很懒,什么都没留下…
展开
-
Python之多线程爬虫抓取网页图片
思路分析Python有很多的第三方库,可以帮助我们实现各种各样的功能。问题在于,我们弄清楚我们需要什么:1)http请求库,根据网站地址可以获取网页源代码。甚至可以下载图片写入磁盘。2)解析网页源代码,识别图片连接地址。比如正则表达式,或者简易的第三方库。3)支持构建多线程或线程池。4)如果可能,需要伪造成浏览器,或绕过网站校验。(嗯,网站有可能会防着爬虫 ;-))5)如果...原创 2018-07-20 08:43:32 · 1675 阅读 · 0 评论 -
把pdf转换成文本
把pdf转换成文本的Python源代码下面的python源代码,读取pdf文件内容(互联网上的或是本地的),转换成文本,打印出来。这段代码主要用了一个第三方库PDFMiner3K把PDF读成字符串,然后用StringIO转换成文件对象。(源代码下载地址参看文章末尾的GitHub源)from urllib.request import urlopenfrom pdfminer.pdfint...原创 2018-07-20 08:44:27 · 1393 阅读 · 0 评论