Python 爬虫示例

原创 2015年07月07日 21:03:14

      本文想抓取 http://tieba.baidu.com/p/3876531503 中的图片,在Python中,模块urllib提供了爬虫支持。如下代码所示:

#coding:utf-8
import re
import urllib

def getHtmlContent(url):
	#打开url地址
	page = urllib.urlopen(url)
	#读取内容
	html = page.read()
	return html
	
def getImg(html):
	#查看页面源码,对应的正则表达式
	reg = r'src="(.*?\.jpg)" pic_ext'
	#对正则表达式进行编译,加快速度
	imgre = re.compile(reg)
	#查找所有匹配结果
	imglist = re.findall(imgre,html)
	x = 0
	for imgurl in imglist:
		#下载到本地,并进行重命名
		urllib.urlretrieve(imgurl,'%s.jpg' %x)
		x+=1

html = getHtmlContent("http://tieba.baidu.com/p/3876531503")
getImg(html)
	

这样就可以把图片下载到本地文件夹中。

Python入门(一):爬虫基本结构&简单实例

爬虫能干什么呢?一句话概括,正常通过浏览器可以获取的数据,爬虫都可以获取。这句话可以说是包罗万象。一是说明了爬虫的本质是一个服务端,实现的功能类似于浏览器;二是说明了爬虫的界限,如果不能正常访问到的数...
  • coffee801
  • coffee801
  • 2017年04月18日 13:12
  • 539

python小实例一:简单爬虫

本文所谓的爬虫就是通过本地远程访问url,然后将url的读成源代码形式,然后对源代码进行解析,获取自己需要的数据,相当于简单数据挖掘。本文实现的是将一个网页的图片爬出保存到本地的过程,例子很简单,用的...
  • xqn2017
  • xqn2017
  • 2017年03月27日 11:52
  • 2946

python爬虫实例项目大全

WechatSogou [1]- 微信公众号爬虫。基于搜狗微信搜索的微信公众号爬虫接口,可以扩展成基于搜狗搜索的爬虫,返回结果是列表,每一项均是公众号具体信息字典。 DouBanSpider [...
  • baidu_21833433
  • baidu_21833433
  • 2017年04月21日 14:59
  • 12985

urllib库的简单使用 && 一个简单的Python爬虫示例

urllib库的简单使用 && 一个简单的Python爬虫示例本篇文章,介绍urllib.request库的简单使用以及注意的问题。最后实现一个Python爬虫的示例。本文是基于Python3.6.2...
  • qq_33689414
  • qq_33689414
  • 2017年11月08日 15:24
  • 310

python爬虫系列(1)——一个简单的爬虫实例

本文主要实现一个简单的爬虫,目的是从一个百度贴吧页面下载图片。
  • dnxbjyj
  • dnxbjyj
  • 2017年04月19日 08:05
  • 526

Python爬虫的简单入门及实用的实例(1)

一.PYthon爬虫的介绍及应用       利用爬虫可以进行数据挖掘,比如可以爬取别人的网页,收集有用的数据进行整合和划分,简单的就是用程序爬取网页上的所有图片并保存在自己新建的文件夹内,还有可以爬...
  • HOT_and_COOl
  • HOT_and_COOl
  • 2017年04月17日 16:17
  • 1204

Python requests爬虫实例

操作系统:Windows Python:3.5需要用到的库: requests wxPython docx win32api需要安装pywin32解释: requests这个用来做爬虫,...
  • HuangZhang_123
  • HuangZhang_123
  • 2017年06月21日 16:07
  • 550

python实例2-写一个爬虫下载小功能

主要是通过url,和re两个模块对一个网页的固定图片进行模糊匹配后下载下来。 #! /usr/bin/python import re import urllib def gethtml(url)...
  • qq_33932782
  • qq_33932782
  • 2017年01月02日 10:17
  • 537

python3.3 爬虫小例子

本文仿照大神:http://blog.csdn.net/pleasecallmewhy/article/details/8927832 的博客转化成python3.3 第一个爬虫小例子: import...
  • oMuYeJingFeng1
  • oMuYeJingFeng1
  • 2014年04月20日 14:41
  • 35904

【python 爬虫】python淘宝爬虫实战(selenum+phontomjs)

1、需求目标 : 进去淘宝页面,搜索耐克关键词,抓取 商品的标题,链接,价格,城市,旺旺号,付款人数,进去第二层,抓取商品的销售量,款号等。2、结果展示 3、源代码# encoding: ...
  • u013421629
  • u013421629
  • 2017年07月11日 14:16
  • 2211
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:Python 爬虫示例
举报原因:
原因补充:

(最多只允许输入30个字)