053/054_爬虫_urllib_基本使用/一个类型六个方法

最新推荐文章于 2024-09-20 10:09:44 发布

一个有趣的昵称

最新推荐文章于 2024-09-20 10:09:44 发布

阅读量242

点赞数

本文链接：https://blog.csdn.net/m0_62530644/article/details/124770603

版权

爬虫 python

urllib基本使用

使用urllib来获取百度首页源代码

import urllib.request

# 定义一个url 你需要访问的网址
url = "http://www.baidu.com"

# 模拟浏览器向服务器发送请求 response = 响应
response = urllib.request.urlopen(url)

# 获取响应种的页面的源码 content = 内容
# read方法  返回的是字节形式的二进制数据
# 二进制--》字符串  解码  decode("编码类型")
content = response.read().decode("utf-8")

print(content)

urllib一个类型六个方法

一个类型

import urllib.request

url = "http://www.baidu.com"

response = urllib.request.urlopen(url)

print(type(response))

# response是HTTPResponse的类型

六个方法

read()	readline	readlines	getcode	geturl	getheadres
一字节一字节读取	读取一行	一行一行读取直至读取完	返回状态(200)为正常	返的回url	获取状态信息

import urllib.request
url = "http://www.baidu.com"
response = urllib.request.urlopen(url)

# content = response.read()

# content = response.read(5)

# content = response.readline

# content = response.readlines()

# print(content)

# print(response.getcode())

# print(response.geturl)

print(response.getheaders)