Python爬虫之Urllib

ahao~

已于 2022-08-20 19:27:53 修改

阅读量1.5k

点赞数

分类专栏： Python 文章标签： python 爬虫开发语言

于 2022-08-20 19:23:13 首次发布

本文链接：https://blog.csdn.net/m0_60121089/article/details/126395665

版权

Python 专栏收录该内容

10 篇文章 7 订阅

订阅专栏

1.3.4 案例：ajax的get请求豆瓣电影的第一页

1.3.5 案例：ajax的get请求豆瓣电影的多页

1.3.6 案例：ajax的post请求肯德基官网

1.4 URLError、HTTPError

1.1 urllib库的使用

1.1.1 基本使用

方法	说明
urllib.request.urlopen(url)	模拟浏览器向服务器发送请求，得到响应。（url可以是字符串或者是请求对象）
decode('编码格式')	解码，以指定的编码格式将二进制数据bytes解码为字符串str

使用urllib来获取百度网页的源码

import urllib.request

# 1.定义一个url
url = "http://www.baidu.com/"

# 2.模拟浏览器向服务器发送请求   response 响应
response = urllib.request.urlopen(url)

# 3.获取响应中页面的源码
# read()方法  返回的是字节形式的二进制数据
# decode('编码格式')    二进制->字符串
content = response.read().decode('utf-8')

# 4.打印数据
print(content)

1.1.2 一个类型和六个方法

方法	说明
read() / read(num)	一个一个字节的来读，直到读完 / 返回前num个字节
readline	读取一行
readlines	一行一行读取，直到读完
getcode	返回状态码
geturl	返回url
getheaders	返回headers

import urllib.request
url = "http://www.baidu.com"

response = urllib.request.urlopen(url)

# <class 'http.client.HTTPResponse'>
# HTTPResponse是response的类型
print(type(response))

# read()  一个一个字节的来读，直到读完
content = response.read()
print(content)

# read(num) 返回前num个字节
content = response.read(5)
print(content)

# readline()    读取一行
content = response.readline()
print(content)

# readlines()   一行一行读取，直到读完
content =response.readlines()
print(content)

# getcode() 返回状态码
content = response.getcode()
# 200(2xx表示成功，如接受或知道了)
print(content)

# geturl()  返回url
content = response.geturl()
print(content)

# getheaders()  返回headers
content = response.headers
print(content)

1.1.3 下载

方法	说明
urllib.request.urlretrieve(url,filename)	下载资源到文件中（url为下载地址，filename为文件名）

import urllib.request

# 下载网页
url_page = 'http://www.baidu.com'
# 关键字参数
urllib.request.urlretrieve(url=url_page,filename='baidu.html')

# 下载图片
url_img = 'https://img0.baidu.com/it/u=2518378277,1696634197&fm=253&fmt=auto&app=138&f=JPEG?w=500&h=773'
# 位置参数
urllib.request.urlretrieve(url_img,'sea.jpg')

# 下载视频
url_video = 'https://vd2.bdstatic.com/mda-jk4pkuv7mykyvnir/sc/mda-jk4pkuv7mykyvnir.mp4?v_from_s=hkapp-haokan-nanjing&auth_key=1660807657-0-0-34d30bdaa97d9f64af9358243461518e&bcevod_channel=searchbox_feed&pd=1&cd=0&pt=3&logid=3457120974&vid=10995348722593480009&abtest=103525_1-103890_1-103579_2&klogid=3457120974'
urllib.request.urlretrieve(url_video,'transform.mp4')

1.2 请求对象的定制

url的组成

# url的组成
# https://www.baidu.com/s?wd=周杰伦
# 协议        主机           端口号    路径    参数    锚点
# http/https www.baidu.com  80/443  s    wd=周杰伦   #
# http 80
# https 443
# mysql 3306
# oracle 1521
# redis 6379
# mongodb 27017

UA介绍

User Agent 中文名为用户代理，简称 UA ，它是一个特殊字符串头，使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本、浏览器内核、浏览器渲染引擎、浏览器语言、浏览器插件等。

方法	说明
urllib.request.Request(url=url,headers=headers)	根据url（字符串）和headers（字典）定制请求的对象

import urllib.request

# 这里的url与之前的url相比，http多了s，模拟浏览器向服务器发送请求时会遇到反爬，这时需要用户代理
url = 'https://www.baidu.com/'

# 键：用户代理    值：用户代理的相关信息
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.0.0 Safari/537.36'
}

# Request方法定制请求的对象
# 实参与形参的位置不同，所以这里用到关键字传参
# headers的类型是字典
request = urllib.request.Request(url=url,headers=headers)

# urlopen方法的参数可以是a string or a Request object
response = urllib.request.urlopen(request)

content = response.read().decode('utf-8')

print(content)