Python 爬虫示例

原创 2015年07月07日 21:03:14

      本文想抓取 http://tieba.baidu.com/p/3876531503 中的图片,在Python中,模块urllib提供了爬虫支持。如下代码所示:

#coding:utf-8
import re
import urllib

def getHtmlContent(url):
	#打开url地址
	page = urllib.urlopen(url)
	#读取内容
	html = page.read()
	return html
	
def getImg(html):
	#查看页面源码,对应的正则表达式
	reg = r'src="(.*?\.jpg)" pic_ext'
	#对正则表达式进行编译,加快速度
	imgre = re.compile(reg)
	#查找所有匹配结果
	imglist = re.findall(imgre,html)
	x = 0
	for imgurl in imglist:
		#下载到本地,并进行重命名
		urllib.urlretrieve(imgurl,'%s.jpg' %x)
		x+=1

html = getHtmlContent("http://tieba.baidu.com/p/3876531503")
getImg(html)
	

这样就可以把图片下载到本地文件夹中。

相关文章推荐

python爬虫实例项目大全

WechatSogou [1]- 微信公众号爬虫。基于搜狗微信搜索的微信公众号爬虫接口,可以扩展成基于搜狗搜索的爬虫,返回结果是列表,每一项均是公众号具体信息字典。 DouBanSpider [...

python2.7爬虫实例详细介绍之爬取大众点评的数据

本文主要介绍如何利用python进行网站数据的抓取工作,通过爬取大众点评-北京的火锅这个条目下的部分数据,来详细说明如何利用Python写好一个爬虫,获得你想要的数据。...

python爬虫:案例一:360指数

pip install beautifulsoup4 pip install requests pip install selenium 下载 phantomjs 给 firefox 安装 fireb...

python 网络爬虫入门(一)———第一个python爬虫实例

最近两天学习了一下python,并自己写了一个网络爬虫的例子。 python版本: 3.5 IDE : pycharm 5.0.4 要用到的包可以用pycharm下载: File->Defau...
  • Bo_wen_
  • Bo_wen_
  • 2016年03月13日 15:58
  • 57297

Delphi7高级应用开发随书源码

  • 2003年04月30日 00:00
  • 676KB
  • 下载

python3.3 爬虫小例子

本文仿照大神:http://blog.csdn.net/pleasecallmewhy/article/details/8927832 的博客转化成python3.3 第一个爬虫小例子: import...

python下很帅气的爬虫包 - Beautiful Soup 示例

先发一下官方文档地址。http://www.crummy.com/software/BeautifulSoup/bs4/doc/ 建议有时间可以看一下python包的文档。 Beautif...
  • watsy
  • watsy
  • 2013年11月05日 10:24
  • 57495

Python爬虫示例代码

  • 2016年12月19日 10:47
  • 48KB
  • 下载
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:Python 爬虫示例
举报原因:
原因补充:

(最多只允许输入30个字)