爬虫---urllib基础库的使用

最新推荐文章于 2024-01-29 14:09:57 发布

机器你今天学习了没

最新推荐文章于 2024-01-29 14:09:57 发布

阅读量1.1k

点赞数 3

分类专栏：爬虫文章标签：爬虫 python

本文链接：https://blog.csdn.net/lihaian/article/details/126001219

版权

爬虫专栏收录该内容

5 篇文章 6 订阅

订阅专栏

urllib基础库的使用

简介
- 1.主要的模块
主要模块
三、请求头配置
四、URLError和HTTOError
五、爬取豆瓣电影网站实例
六、总结

简介

1.主要的模块

urllib.request 请求模块
urllib.error 异常处理模块
urllib.parse url解析模块

主要模块

1.urllib.request模块

（1）urllib.request.urlopen(url,data,timeout)

模拟浏览器向服务器发送请求
只传入url是get请求，传入url 和 data是post请求
timeout：超时时间
返回值：response对象

（2）response对象

read（）获取字节类型的响应内容content
geturl（）获取请求的url
getheaders（）获取响应头信息
getcode（）获取状态码
readline（）读取一行
readlines（）返回一个列表，列表中是每一行的内容

（3）urllib.request.urlretrieve(url,filename）

根据地址获取资源（文本、图片、视频）
url：传入下载资源的路径 filename：本地路径，将获取数据后保存到哪里
注意本地路径记得加文件名如：html、jpg、mp4等

2.urllib.parse模块

（1）quote()编码

按照RFC规定url中不能出现空格中文，只允许一部分ASCII字符（数字字母和部分符号）

（2）unquote()解码

与quote相反，对编码的内容进行解码

import urllib.request
import urllib.parse
url = 'https://www.baidu.com/s?wd='
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36'
}
# headers请换成自己电脑的
# 将周杰伦变成unicode编码的格式
# 需要依赖与urllib.parse
# a = input('输入你想查询的人物：')
# name = urllib.parse.quote(a)
name = urllib.parse.quote('周杰伦')
url = url + name
# print(url)
# print(urllib.parse.unquote(url))
request = urllib.request.Request(url=url,headers=headers)
response = urllib.request.urlopen(request)
content = response.read().decode('utf-8')
print(content)

（3）urlencode()

对字典进行编码，把key-value 这样的键值对转换我们需要的形式，返回的是a=1&b=2这样的字符串

import urllib.request
import urllib.parse
url = 'https://fanyi.baidu.com/sug'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36'
}
# headers请换成自己电脑的
data = {
    'kw': 'spider'
}

# post请求的参数 必须要进行编码
data = urllib.parse.urlencode(data).encode('utf-8')
request = urllib.request.Request(url=url,data=data,headers=headers)
response = urllib.request.urlopen(request)
content = response.read().decode('utf-8')
# print(content)
# print(type(content))

import json
obj = json.loads(content)
print(obj)

三、请求头配置

1.配置请求头

一般具有反爬虫的网站都会对请求头进行检查

2.携带请求头

import urllib.request
# 定义一个url 就是访问的地址
url = 'https://www.baidu.com'
# 把爬虫伪装成pc端的浏览器
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36'
}
# headers请换成自己电脑的
# 因为urlopen方法不能存储字典 所以headers不能传递进去
#  创建请求对象，请求对象的定制
# 因为参数顺序的问题 不能直接写url和headers 需要关键字传参
request = urllib.request.Request(url=url,headers=headers)
# urlopen的参数可以是简单的字符串，也可以是一个request请求对象
response = urllib.request.urlopen(request)
# read方法 返回的是字节形式的二进制数据 我们要将二进制的数据转换为字符串
# 二进制--》字符串 解码 decode（‘编码的格式’）
content = response.read().decode('utf8')
print(content)

3.POST请求

import urllib.request
import urllib.parse
url = 'https://fanyi.baidu.com/v2transapi?from=zh&to=en'
headers = {
   'Cookie': 'BIDUPSID=C6CE5FF2DC19CD38B69AD13B21E47203; PSTM=1658718986; BDRCVFR[hiIP0dwB613]=mk3SLVN4HKm; BAIDUID=C6CE5FF2DC19CD38E2B3B384D4D04767:FG=1; BA_HECTOR=0h818h21018k00al80a4b2ig1hds2ob17; ZFY=JbPtF2sqFmd:AwWHsrXZJWqT8ApOxc5A1OWxeytmRT:BM:C; BDRCVFR[oxw6P5LCmIs]=mk3SLVN4HKm; delPer=0; PSINO=6; H_PS_PSSID=26350; BDORZ=FFFB88E999055A3F8A630C64834BD6D0; Hm_lvt_64ecd82404c51e03dc91cb9e8c025574=1658739277; APPGUIDE_10_0_2=1; REALTIME_TRANS_SWITCH=1; FANYI_WORD_SWITCH=1; HISTORY_SWITCH=1; SOUND_SPD_SWITCH=1; SOUND_PREFER_SWITCH=1; ab_sr=1.0.1_NzBlOTBjYzA2NzZiZmNmZDAzZjhiYTdkNDZiM2QyNWQ4N2JiM2JjNTRhZTJhYTQzNTM0YzJjODhlMDM2ZWIxNWZjNmJlYTc0YzM3MmU2ZWRiNWU5YmFkNDhiZTVlNGIyMzAxMDBmMTkzOTc3NTgwODRjNWYzNmU4ODUxYzliYTQxM2I0ZTJjOTI2ZjA3ZjQ1NzNlYTU5MzNjMDg2YWMyOA==; Hm_lpvt_64ecd82404c51e03dc91cb9e8c025574=1658739306'

}
data = {
    'from': 'zh',
    'to': 'en',
    'query': '中国',
    'simple_means_flag': '3',
    'sign': '777849.998728',
    'domain': 'common',
}

data = urllib.parse.urlencode(data).encode('utf-8')
request = urllib.request.Request(url=url,data=data,headers=headers)
response = urllib.request.urlopen(request)
content = response.read().decode('utf-8')
print(content)

四、URLError和HTTOError

python中写爬虫程序时，可以使用urllib.error 来接收urllib.requestcs产生的异常。
urllib.error有两个方法，URLError和HTTPError
URLRError是OSError的一个子类，HTTPError是URLError的一个子类
服务器是HTTP的响应会返回一个状态码，根据状态码可以知道是否访问成功

五、爬取豆瓣电影网站实例

ajax的get请求豆瓣网电影：
1.打开网页检查源代码
2.寻找需要内容的所在位置 Ajax是一种用于创建快速动态网页的技术
3.分析网页url的规律，且为get请求
4.封装写程序，程序入口
5.爬虫代码
–》url、headers、data --》request 请求对象的定制
–》response 模拟浏览器向服务器发送请求 response响应
–》content 获取响应内容 --》下载数据打开文件下载数据、os模块

import urllib.parse
import urllib.request
import os


# 1.请求对象的定制
def create_request(page):
    base_url = 'https://movie.douban.com/j/chart/top_list?type=5&interval_id=100%3A90&action=&'
    data = {
        'start':(page-1)*20,
        'limit':20
    }
    data = urllib.parse.urlencode(data)
    url = base_url + data
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.131 Safari/537.36 SLBrowser/8.0.0.7062 SLBChan/105'
    }
    request = urllib.request.Request(url=url,headers=headers)
    return request


# 2.获取响应的数据
def get_content(request):
    response = urllib.request.urlopen(request)
    content = response.read().decode('utf-8')
    return content


# 3.下载数据
def downlode(page,content):
    if os.path.exists('../douban_file'):
        pass
    else:
        os.mkdir('../douban_file')
    with open('douban_file/'+'douban'+str(page)+'.json','w',encoding='utf-8') as fp:
        fp.write(content)


def run():
    start_page = int(input('请输入起始的页码：'))
    end_page = int(input('请输入结束的页码：'))
    for page in range(start_page,end_page+1):
        request = create_request(page)
        content = get_content(request)
        downlode(page,content)


# 程序入口
if __name__ == '__main__':
    run()