python简单爬虫--转源码

最新推荐文章于 2023-12-20 15:12:13 发布

小鱼儿157

最新推荐文章于 2023-12-20 15:12:13 发布

阅读量832

点赞数

分类专栏： python

本文链接：https://blog.csdn.net/u011649536/article/details/50544207

版权

python 专栏收录该内容

24 篇文章 0 订阅

订阅专栏

在网上看到一个爬虫，感觉很有意思，爬了一堆图片用来测试。下面是源码，做了一些简单说明。

#coding=utf-8
import urllib
import re
#思路：先获取所有页面信息，使用正则匹配图片地址信息，下载图片到本地
#根据一个url地址获取该url的所有页面信息
def gethtml(url):
	page=urllib.urlopen(url)
	html = page.read()
	return html
	
#正则表达式来从网页信息中筛选匹配出图片地址信息，并下载到本地，默认保存到该py文件保存的位置
def getImg(html):
    reg = r'src="(.+?\.jpg)" pic_ext'
    imgre = re.compile(reg)
    imglist = re.findall(imgre,html)
    x = 0
    for imgurl in imglist:
        urllib.urlretrieve(imgurl,'%s.jpg' % x)
        x+=1
html = gethtml("http://tieba.baidu.com/p/2460150866")

print getImg(html)