一个简单的Web客户端(网络爬虫)

本节演示网络爬虫。它是按照一定的规则,自动地抓取万维网信息的程序或者脚本。

        在本节的演示程序中,抓取Web的开始页面地址,下载与开始页面相同域名的后续链接页面。

实现代码:


[python]  view plain   copy
  1. #-*-coding: utf-8-*-  
  2.   
  3. from sys import argv  
  4. from os import makedirs, unlink, sep  
  5. from os.path import dirname, exists, isdir, splitext  
  6. from string import replace, find, lower  
  7. from htmllib import HTMLParser # HTMLParser是用来解析html页面的,解析html页面中的链接?  
  8. from urllib import urlretrieve  
  9. from urlparse import urlparse, urljoin  
  10. from formatter import DumbWriter, AbstractFormatter # DumbWriter将事件流转换为存文本文档?AbstractFormatter?  
  11. from cStringIO import StringIO # StringIO是指在内存中读写字符串  
  12.   
  13. # 类Retrieve负责从web下载页面  
  14. class Retrieve(object): # download Web pages  
  15.       
  16.     def __init__(self, url):  
  17.         self.url = url  
  18.         self.file = self.filename(url)  
  19.   
  20.     # filename()方法使用给定的url找出安全、有效的相关文件名并储存在本地  
  21.     def filename(self, url, deffile='index.html'):  
  22.         parsedurl = urlparse(url, 'http:'0<
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值