该脚本的主要是从网上抓取资源存入本地文件
脚本中Retriever 类的责任是从 Web 下载页面,解析每个文档中的链接并在必要的时候把它们加入
“to-do”队列。我们为每个从网上下载的页面都创建一个 Retriever 类的实例。Retriever 中的方
法展现了它的功能:构造器(__init__())、filename()、download()、和parseAndGetLinks()。
filename()方法使用给定的URL找出安全、有效的相关文件名并存储在本地。大体上说,它会
去掉 URL 的“http://”前缀,使用剩余的部分作为文件名,并创建必要的文件夹路径。那些没有
文件名前缀的URL则会被赋予一个默认的文件名“index.htm”。(可以在调用filename()时重新指定
这个名字。)
构造器实例化了一个 Retriever 对象,并把 URL 和通过 filename()获得的相应文件名都作为本
地属性保存起来。
运行效果图: