python实现网络爬虫

一.简介

        该爬虫程序包含2个类,一个管理整个crawling进程(Crawler),一个检索并解析每一个下载的web页面(Retriever)。

二.程序

[python]  view plain copy
  1. #!/usr/bin/env python  
  2.   
  3. from sys import argv  
  4. from os import makedirs,unlink,sep  
  5. from os.path import dirname,exists,isdir,splitext  
  6. from string import replace,find,lower  
  7. from htmllib import HTMLParser  
  8. from urllib import urlretrieve  
  9. from urlparse import urlparse,urljoin  
  10. from formatter import DumbWriter,AbstractFormatter  
  11. from cStringIO import StringIO  
  12.   
  13. class Retriever(object): #download web pages  
  14.   def __init__(self,url):  
  15.     self.url = url  
  16.     self.file = self.filename(url)  
  17.   
  18.   def filename(self,url,deffile='index.htm'):  
  19.     parsedurl = urlparse(url,'http:',0## parse path  
  20.     path = parsedurl[1] + parsedurl[2]  
  21.     ext = splitext(path)  
  22.     if ext[1] == '' : #no file,use default  
  23.        if path[-1] == '/':  
  24.           path += deffile  
  25.        else:  
  26.           path += '/' + deffile  
  27.     ldir = dirname(path) #local directory  
  28.     if sep != '/'# os-indep. path separator  
  29.        ldir = replace(ldir,'/',sep)  
  30.     if not isdir(ldir): # create archive dir if nec.  
  31.        if exists(ldir): unlink(ldir)  
  32.        makedirs(ldir)  
  33.     return path  
  34.   
  35.   def download(self): #download Web page  
  36.     try:  
  37.       retval = urlretrieve(self.url,self.file)  
  38.     except IOError:  
  39.       retval = ('*** ERROR: invalid URL "%s"' % \  
  40.           self.url,)  
  41.       return retval  
  42.     
  43.   def parseAndGetLinks(self): #parse HTML,save links  
  44.     self.parser = HTMLParser(AbstractFormatter(\  
  45.        DumbWriter(StringIO())))  
  46.     self.parser.feed(open(self.file).read())  
  47.     self.parse.close()  
  48.     return self.parser.anchorlist  
  49.   
  50.       
  51. class Crawler(object): #manage entire crawling process  
  52.   count = 0 #static downloaded page counter  
  53.     
  54.   def __init__(self,url):  
  55.     self.q = [url]     
  56.     self.seen = []   #have seen the url  
  57.     self.dom = urlparse(url)[1]  
  58.     
  59.   def getPage(self,url):  
  60.     r = Retriever(url)  
  61.     retval = r.download()  
  62.     if retval[0] == '*'# error situation,do not parse  
  63.       print retval,'... skipping parse'  
  64.       return   
  65.     Crawler.count += 1  
  66.     print '\n(',Crawler.count,')'  
  67.     print 'URL:',url  
  68.     print 'FILE:',retval[0]  
  69.     self.seen.append(url)  
  70.   
  71.     links = r.parseAndGetLinks() #get and process links  
  72.     for eachLink in links:  
  73.        if eachLink[:4] != 'http' and \  
  74.           find(eachLink,'://') == -1:  
  75.           eachLink = urljoin(url,eachLink)  
  76.        print '* ',eachLink,  
  77.          
  78.        if find(lower(eachLink),'mailto:') != -1:  
  79.           print '... discarded,mailto link'  
  80.           continue  
  81.          
  82.        if eachLink not in self.seen:  
  83.           if find(eachLink,self.dom) == -1:  
  84.              print '... discarded, not in domain'  
  85.           else:  
  86.              if eachLink not in self.q:  
  87.                   self.q.append(eachLink)  
  88.                   print '... new, added to Q'  
  89.              else:  
  90.                 print '... discarded, already in Q'  
  91.        else:  
  92.            print '... discarded, already processed'  
  93.   
  94.   def go(self): # process links in queue  
  95.       while self.q:  
  96.           url = self.q.pop()  
  97.           self.getPage(url)  
  98.   
  99.   
  100. def main():  
  101.   if len(argv) > 1:  
  102.       url = argv[1]  
  103.   else:  
  104.      try:  
  105.        url = raw_input('Enter starting URL:')  
  106.      except(KeyboardInterrupt,EOFError):  
  107.        url = ''  
  108.      if not url: return   
  109.      robot = Crawler(url)  
  110.      robot.go()  
  111.   
  112. if __name__ == '__main__':  
  113.    main()  
  114.   
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值