关闭

Python 爬虫示例

标签: Python 爬虫Python urllib
1045人阅读 评论(0) 收藏 举报
分类:

      本文想抓取 http://tieba.baidu.com/p/3876531503 中的图片,在Python中,模块urllib提供了爬虫支持。如下代码所示:

#coding:utf-8
import re
import urllib

def getHtmlContent(url):
	#打开url地址
	page = urllib.urlopen(url)
	#读取内容
	html = page.read()
	return html
	
def getImg(html):
	#查看页面源码,对应的正则表达式
	reg = r'src="(.*?\.jpg)" pic_ext'
	#对正则表达式进行编译,加快速度
	imgre = re.compile(reg)
	#查找所有匹配结果
	imglist = re.findall(imgre,html)
	x = 0
	for imgurl in imglist:
		#下载到本地,并进行重命名
		urllib.urlretrieve(imgurl,'%s.jpg' %x)
		x+=1

html = getHtmlContent("http://tieba.baidu.com/p/3876531503")
getImg(html)
	

这样就可以把图片下载到本地文件夹中。

0
0

查看评论
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
    个人资料
    • 访问:832847次
    • 积分:9901
    • 等级:
    • 排名:第1819名
    • 原创:345篇
    • 转载:44篇
    • 译文:0篇
    • 评论:88条
    联系方式
    请关注:
    微信公众号 : @残缺的孤独

    新浪微博号 : @残缺的孤独

    博客专栏
    文章分类