urllib简单了解

#导入库
import urllib.request
#爬取网页并赋值给变量
file = urllib.request.urlopen("http://www.baidu.com")
#读取网页全部内容 
data = file.read()
#读取网页中一行内容
dataFile = file.readline()
'''
file.read()与readlines不同的时,read会把读取到的内容赋给一个字符串变量,readlines会把读取到的内容赋给一个列表变量,推荐使用readlines
readline()读取一行

'''
 #成功实现一个网页的爬取,如何将爬取的网页以网页形式保存到本地
#1.以写入的方式打开一个html文件
fhandle = open("路径.html","wb")
#2.写入数据
fhandle.wirte(data)
#3.关闭
flandle.close()


#使用urllib.request里面的urlretrieve()函数直接将对应的信息写入本地
#格式:urllib.request.urlretrieve(url,filename = 本地文件地址)
#For example:
fileName = urllib.request urlretrieve("http://www.baidu.com",filename = "路径.html")

#执行urlretrieve的过程会产生一些缓存,如果我们需要清理缓存
#使用urlcleanup()
#格式:urllib.request.urlcleanup()


#如果希望返回与当前环境有关的信息,我们可以使用info()返回
#格式:file.info()


#如果希望返回与当前爬取网页的状态码,我们可以使用geturl()来实现
#格式:爬取的网页.geturl()


#对url进行编码
#格式:urllib.request.quote()
#For example:
urllib.request.quote("http://www.sina.com.cn")

#对URL解码
#格式:urllib.request.unquote()


成功实现一个网页的爬取,如何将爬取的网页以网页形式保存到本地

 

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值