概 念:可以将URL指定的网页下载下来,存储城一个字符串,这个字符串 会传给网页解析器。
网页下载器需要实现的函数:
#传进来一个要下载的URl
def download(self,url):
if url is None:
return None;
response=urllib2.urlopen(url);
# 获取请求值
if response.getcode()!=200:
return None;
else:
#返回html字符串
return response.read()
问题
1.什么是网页下载器。
2.编写网页下载器需要注意什么。
3.自己编写一个网页下载器。
答案
1.网页下载器概念:可以将URL指定的网页下载下来,存储城一个字符串,这个字符串会传给网页解析器
2.需要判断传递过来的URL是否为空,如果为空,则返回node
3.
#!/user/bin/env python
# _*_ coding:utf-8 _*_
#HTML下载器
import urllib2
class HtmlDownloader():
#传进来一个要下载的URl
def download(self,url):
#如果url为空,则返回空
if url is None:
return None;
response=urllib2.urlopen(url);
# 获取请求值
if response.getcode()!=200:
return None;
else:
#返回html字符串
return response.read()