一 基本概念
在Python中,我们使用urllib2这个组件来抓取网页。urllib2是Python的一个获取URLs(Uniform Resource Locators)的组件。它以urlopen函数的形式提供了一个非常简单的接口。
二 HTML 的组成部分
(1)DTD头,用于告诉浏览器用什么语言来解析当前页面。
(2) Head 告诉浏览器一些相关的信息。
(3) Body 包含的是给人看的数据。
按F12,显示网页代码信息
三 用python抓取图片源代码
#coding=utf-8
import urllib
import re
def getHtml(url):
page = urllib.urlopen(url)#打开网址
html = page.read() #读取网页内容,保存到htlm中
return html
def getImg(html):
reg = r'src="(.+?\.jpg)" pic_ext'#正则表达式
imgre = re.compile(reg) #把正则表达式编译成一个正则表达式对象.
imglist = re.findall(imgre,html)#读取html 中包含 imgre(正则表达式)的数据