【爬虫一】urllib库使用

最新推荐文章于 2023-02-16 11:19:18 发布

GitzLiu

最新推荐文章于 2023-02-16 11:19:18 发布

阅读量1.9k

点赞数

分类专栏： Python 综合文章标签：爬虫

本文链接：https://blog.csdn.net/GitzLiu/article/details/54862205

版权

综合同时被 2 个专栏收录

14 篇文章 0 订阅

订阅专栏

Python

9 篇文章 1 订阅

订阅专栏

本篇为基础爬虫的模板，使用urllib库。
代码功能：爬取百度贴吧的图片。
代码如下：

import re
import urllib

def getHtml(url):
    page=urllib.urlopen(url)
    html=page.read()
    return html


def getImg(html):
    reg=r'src="(.+?\.jpg)" size='
    imgre=re.compile(reg)
    imglist=re.findall(imgre,html)
    x=0
    for imgurl in imglist:
        urllib.urlretrieve(imgurl,'%s.jpg'%x)    #urllib.urlretrieve()方法，直接将远程数据下载到本地。
        x+=1


name='http://tieba.baidu.com/p/4859088308'
html=getHtml(name)
getImg(html)
print 'DONE!'