python 网页抓取程序

最新推荐文章于 2019-05-07 15:01:16 发布

bestdowt1314

最新推荐文章于 2019-05-07 15:01:16 发布

阅读量1.1k

点赞数

分类专栏： Python 学习笔记文章标签： python url import path download object

本文链接：https://blog.csdn.net/bestdowt1314/article/details/6090510

版权

Python 学习笔记专栏收录该内容

28 篇文章 0 订阅

订阅专栏

该脚本的主要是从网上抓取资源存入本地文件

脚本中Retriever 类的责任是从 Web 下载页面，解析每个文档中的链接并在必要的时候把它们加入

“to-do”队列。我们为每个从网上下载的页面都创建一个 Retriever 类的实例。Retriever 中的方

法展现了它的功能：构造器（__init__()）、filename()、download()、和parseAndGetLinks()。

filename()方法使用给定的URL找出安全、有效的相关文件名并存储在本地。大体上说，它会

去掉 URL 的“http://”前缀，使用剩余的部分作为文件名，并创建必要的文件夹路径。那些没有

文件名前缀的URL则会被赋予一个默认的文件名“index.htm”。（可以在调用filename()时重新指定

这个名字。）

构造器实例化了一个 Retriever 对象，并把 URL 和通过 filename()获得的相应文件名都作为本

地属性保存起来。

''' Created on 2010-12-21 @author: Administrator ''' from sys import argv from os import makedirs,unlink,sep from os.path import dirname,exists,isdir,splitext from string import replace,find,lower from htmllib import HTMLParser from urllib import urlretrieve from urlparse import urlparse,urljoin from formatter import DumbWriter,AbstractFormatter from cStringIO import StringIO #import model you need class Retriever(object): def __init__(self,url): self.url=url self.file=self.filename(url) def filename(self,url,deffile='index.htm'): parsedurl=urlparse(url,'http:',0) path=parsedurl[1]+parsedurl[2] ext=splitext(path) if ext[1]=='': if path[-1]=='/': path+=deffile else: path+='/'+deffile ldir=dirname(path) if sep!='/': ldir=replace(ldir,'/',sep) if not isdir(ldir): if exists(ldir):unlink(ldir) makedirs(ldir) return path def download(self): try: retval=urlretrieve(self.url,self.file) except IOError: retval=('***ERROR :invalid URL "%s"' %self.url,) return retval def parseAndGetLinks(self): print 'file:%s' % self.file self.parser=HTMLParser(AbstractFormatter(DumbWriter(StringIO))) self.parser.feed(open(self.file).read()) self.parser.close() return self.parser.anchorlist class Crawler(object): count=0 def __init__(self,url): self.q=[url] self.seen=[] self.dom=urlparse(url)[1] def getPage(self,url): r=Retriever(url) retval=r.download() if retval[0]=='*': print retval,'...skipping parse' return Crawler.count+=1 print '/n(',Crawler.count,')' print 'URL:',url print 'FILE:',retval[0] self.seen.append(url) links=r.parseAndGetLinks() for eachLink in links: if eachLink[:4]!='http' and find(eachLink,'://')==-1: print "*",eachLink if eachLink not in self.seen: if find(eachLink,self.dom)==-1: print '...discarded,not in domain' else: if eachLink not in self.q: self.q.append(eachLink) print '...new ,added to Q' else: print '...discarded,already in Q' else: print '...discarded,already processed' def go(self): while self.q: url=self.q.pop() self.getPage(url) def main(): if len(argv)>1: url=argv[1] else: try: url=raw_input('Enter starting URL:') except(KeyboardInterrupt,EOFError): url='' if not url:return robot=Crawler(url) robot.go() if __name__=='__main__': main()

运行效果图:

bestdowt1314

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python 网页抓取程序

 该脚本的主要是从网上抓取资源存入本地文件 脚本中Retriever 类的责任是从 Web 下载页面，解析每个文档中的链接并在必要的时候把它们加入 “to-do”队列。我们为每个从网上下载的页面都创建一个 Retriever 类的实例。Retriever 中的方 法展现了它的功能：构造器（__init__()）、filename()、download()、和parseAndGetLinks()。
复制链接

扫一扫

专栏目录