python爬取整个网站_python爬虫-基础入门-爬取整个网站《2》

最新推荐文章于 2023-11-13 14:15:49 发布

weixin_39787397

最新推荐文章于 2023-11-13 14:15:49 发布

阅读量101

点赞数

文章标签： python爬取整个网站

python爬虫-基础入门-爬取整个网站《2》

描述：

开场白已在《python爬虫-基础入门-爬取整个网站《1》》中描述过了，这里不在描述，只附上 python3的代码。

python3 脚本代码：

1 #-*- coding: utf-8 -*-

2

3 importurllib.request4

5

6 defbaiduNet() :7

8 response = urllib.request.urlopen("http://www.baidu.com")9 netcontext = response.read().decode("utf-8")10

11 file = open("baidutext.txt", "w", encoding='UTF-8')12 file.write(netcontext)13

14 if __name__ == "__main__":15 baiduNet()

注意：

在python3中包urllib2归入了urllib中，所以要导入urllib.request，并且要把urllib2替换成urllib.request

urlopen方法

>> 获取页面信息

>> 语法形式

urllib.request.urlopen(url, data=None, [timeout])

-> url : 需要打开的网址

-> data : post需要提交的数据

-> timeout : 设置网站的访问超市时间

>> 结果：

response = urllib.request.urlopen("http://www.baidu.com")

netcontext = response.read().decode("utf-8")

使用read()方法读取响应对象中的文本，注意：得到文本数据格式为byte类型，需要decode()方法解码，转换成string类型。

--->>> 扩展，urlopen其它方法

方法

功能

read()，readline()，readlines()，fileno()，close()

对HHTTPResponse类型数据进行操作

info()

返回HTTPMessage对象，表示远程服务器返回的头信息

getcode()

返回Http状态码，如果是http请求，200请求成功状态码；404网址未找到

geturl()

返回请求的url

如有问题，欢迎纠正！！！

weixin_39787397

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python爬取整个网站_python爬虫-基础入门-爬取整个网站《2》

python爬虫-基础入门-爬取整个网站《2》描述：开场白已在《python爬虫-基础入门-爬取整个网站《1》》中描述过了，这里不在描述，只附上 python3的代码。python3 脚本代码：1 #-*- coding: utf-8 -*-23 importurllib.request456 defbaiduNet() :78 response = urllib.request.urlo...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。