一 基本概念
在Python中,我们使用urllib2这个组件来抓取网页。urllib2是Python的一个获取URLs(Uniform Resource Locators)的组件。它以urlopen函数的形式提供了一个非常简单的接口。
二 HTML 的组成部分
(1)DTD头,用于告诉浏览器用什么语言来解析当前页面。
(2) Head 告诉浏览器一些相关的信息。
(3) Body 包含的是给人看的数据。
按F12,显示网页代码信息
三 用python抓取图片源代码
#coding=utf-8
import urllib
import re
def getHtml(url):