#导入库
import urllib.request
#爬取网页并赋值给变量
file = urllib.request.urlopen("http://www.baidu.com")
#读取网页全部内容
data = file.read()
#读取网页中一行内容
dataFile = file.readline()
'''
file.read()与readlines不同的时,read会把读取到的内容赋给一个字符串变量,readlines会把读取到的内容赋给一个列表变量,推荐使用readlines
readline()读取一行
'''
#成功实现一个网页的爬取,如何将爬取的网页以网页形式保存到本地
#1.以写入的方式打开一个html文件
fhandle = open("路径.html","wb")
#2.写入数据
fhandle.wirte(data)
#3.关闭
flandle.close()
#使用urllib.request里面的urlretrieve()函数直接将对应的信息写入本地
#格式:urllib.request.urlretrieve(url,filename = 本地文件地址)
#For example:
fileName = urllib.request urlretrieve("http://www.baidu.com",filename = "路径.html")
#执行urlretrieve的过程会产生一些缓存,如果我们需要清理缓存
#使用urlcleanup()
#格式:urllib.request.urlcleanup()
#如果希望返回与当前环境有关的信息,我们可以使用info()返回
#格式:file.info()
#如果希望返回与当前爬取网页的状态码,我们可以使用geturl()来实现
#格式:爬取的网页.geturl()
#对url进行编码
#格式:urllib.request.quote()
#For example:
urllib.request.quote("http://www.sina.com.cn")
#对URL解码
#格式:urllib.request.unquote()
成功实现一个网页的爬取,如何将爬取的网页以网页形式保存到本地