urllib简单了解

最新推荐文章于 2024-07-14 20:20:34 发布

Py菜菜鸟

最新推荐文章于 2024-07-14 20:20:34 发布

阅读量2.1k

点赞数

分类专栏： urllib 文章标签： python crawler urllib

urllib 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

#导入库
import urllib.request
#爬取网页并赋值给变量
file = urllib.request.urlopen("http://www.baidu.com")
#读取网页全部内容 
data = file.read()
#读取网页中一行内容
dataFile = file.readline()
'''
file.read()与readlines不同的时，read会把读取到的内容赋给一个字符串变量，readlines会把读取到的内容赋给一个列表变量，推荐使用readlines
readline()读取一行

'''
 #成功实现一个网页的爬取，如何将爬取的网页以网页形式保存到本地
#1.以写入的方式打开一个html文件
fhandle = open("路径.html"，"wb")
#2.写入数据
fhandle.wirte(data)
#3.关闭
flandle.close()


#使用urllib.request里面的urlretrieve()函数直接将对应的信息写入本地
#格式：urllib.request.urlretrieve(url,filename = 本地文件地址)
#For example:
fileName = urllib.request urlretrieve("http://www.baidu.com",filename = "路径.html")

#执行urlretrieve的过程会产生一些缓存，如果我们需要清理缓存
#使用urlcleanup()
#格式：urllib.request.urlcleanup()


#如果希望返回与当前环境有关的信息，我们可以使用info()返回
#格式：file.info()


#如果希望返回与当前爬取网页的状态码,我们可以使用geturl()来实现
#格式：爬取的网页.geturl()


#对url进行编码
#格式：urllib.request.quote()
#For example:
urllib.request.quote("http://www.sina.com.cn")

#对URL解码
#格式：urllib.request.unquote()

成功实现一个网页的爬取，如何将爬取的网页以网页形式保存到本地