利用Python抓取和解析网页（一）

最新推荐文章于 2024-09-15 22:31:42 发布

Handsome_Engineer

最新推荐文章于 2024-09-15 22:31:42 发布

阅读量1.4k

点赞数

分类专栏： Python 文章标签： python 文档 html url buffer web服务

Python 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

WebjxCom提示：对搜索引擎、文件索引、文档转换、数据检索、站点备份或迁移等应用程序来说，经常用到对网页(即HTML文件)的解析处理。事实上，通过Python语言提供的各种模块，我们无需借助Web服务器或者Web浏览器就能够解析和处理HTML文档

　　上述代码的执行结果如下所示：

　　用Google搜索python时地址栏中URL的解析结果

　　( ' http ' , ' www.google.com ' , ' /search ' , '' ,

　　 ' hl=en&q=python&btnG=Google+Search ' , '' )

　　反解析python文档页面的URL

　　http: // www.python.org / lib / module - urlparse.html

　　利用拼接方式添加更多python文档页面的URL

　　http: // www.python.org / lib / module - urllib.html

　　http: // www.python.org / lib / module - urllib2.html

　　http: // www.python.org / lib / module - httplib.html

　　http: // www.python.org / lib / module - cgilib.html

　　通过拼接子路径来生成Python文档页面的URL

　　http: // www.python.org / lib / module - urllib2 / request - objects.html

　　二、打开HTML文档

　　上面介绍了如何解析页面的URL，现在开始讲解如何通过URL打开一个网页。实际上，Python所带的urllib和urllib2这两个模块为我们提供了从URL打开并获取数据的功能，当然，这包括HTML文档。

　　 import urllib

　　u = urllib.urlopen(webURL)

　　u = urllib.urlopen(localURL)

　　buffer = u.read()

　　 print u.info()

　　 print " 从%s读取了%d 字节数据./n " % (u.geturl(),len(buffer) )

　　若要通过urllib模块中的urlopen(url [,data])函数打开一个HTML文档，必须提供该文档的URL地址，包括文件名。函数urlopen不仅可以打开位于远程web服务器上的文件，而且可以打开一个本地文件，并返回一个类似文件的对象，我们可以通过该对象从HTML文档中读出数据。

　　一旦打开了HTML文档，我们就可以像使用常规文件一样使用read([nbytes])、readline()和readlines()函数来对文件进行读操作。若要读取整个HTML文档的内容的话，您可以使用read()函数，该函数将文件内容作为字符串返回。

　　打开一个地址之后，您可以使用geturl()函数取得被获取网页的真正的URL。这是很有用的，因为urlopen(或使用的opener对象)也许会伴随一个重定向。获取的网页URL也许和要求的网页URL不一样。

　　另一个常用的函数是位于从urlopen返回的类文件对象中的info()函数，这个函数可以返回URL位置有关的元数据，比如内容长度、内容类型，等等。下面通过一个较为详细的例子来对这些函数进行说明。

　　 import urllib

　　webURL = " http://www.python.org "

　　localURL = " index.html "

　　 # 通过URL打开远程页面

　　u = urllib.urlopen(webURL)

　　buffer = u.read()

　　 print u.info()

　　 print " 从%s读取了%d 字节数据./n " % (u.geturl(),len(buffer) )

　　 # 通过URL打开本地页面

　　u = urllib.urlopen(localURL)

　　buffer = u.read()

　　 print u.info()

　　 print " 从%s读取了%d 字节数据./n " % (u.geturl(),len(buffer) )

　　上面代码的运行结果如下所示：

　　Date: Fri, 26 Jun 2009 10 : 22 : 11 GMT

　　Server: Apache / 2.2 . 9 (Debian) DAV / 2 SVN / 1.5 . 1 mod_ssl / 2.2 . 9 OpenSSL / 0.9 .8g mod_wsgi / 2.3 Python / 2.5 . 2

　　Last - Modified: Thu, 25 Jun 2009 0 9 : 44 : 54 GMT

　　ETag: " 105800d-46e7-46d29136f7180 "

　　Accept - Ranges: bytes

　　Content - Length: 18151

　　Connection: close

　　Content - Type: text / html

　　从http: // www.python.org读取了18151 字节数据.

　　Content - Type: text / html

　　Content - Length: 865

　　Last - modified: Fri, 26 Jun 2009 10 : 16 : 10 GMT

　　从index.html读取了865 字节数据.

　　三、小结

　　对搜索引擎、文件索引、文档转换、数据检索、站点备份或迁移等应用程序来说，经常用到对网页(即HTML文件)的解析处理。事实上，通过Python语言提供的各种模块，我们无需借助Web服务器或者Web浏览器就能够解析和处理HTML文档。本文中，我们介绍了一个可以帮助简化打开位于本地和Web上的HTML文档的Python模块。在下篇中，我们将论述如何使用Python模块来迅速解析在HTML文件中的数据，从而处理特定的内容，如链接、图像和Cookie等。