Python爬虫（2）

ghx_code repository

已于 2024-07-21 10:09:38 修改

阅读量887

点赞数 15

分类专栏： Python爬虫文章标签： python 爬虫开发语言

于 2024-07-19 14:50:57 首次发布

本文链接：https://blog.csdn.net/2301_80138548/article/details/140543816

版权

Python爬虫专栏收录该内容

6 篇文章 0 订阅

订阅专栏

一：URL中参数的传递

1.URL传递参数分析

URL的组成结构：
URL的中文名称是统一资源定位符，是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示，俗称网址。每一个网页都有只属于自己的URL，它具有唯一性。
URL由以下几部分组成：
1.协议：常用的有http协议，https（http+ssh）协议
2.服务器主机地址：可以是域名，也可以是主机名，或者IP地址
3.端口：服务器设定的端口。URL地址里一般无端口，因为服务器使用了协议的默认端口，用户通过url访问服务器时，可以省略
4.路径：访问的资源在服务器下的相对路径，是服务器上的一个目录或者文件地址
5.参数：查询搜索的部分，通过问号？连接到路径后面，有时候也归类到路径中

URL参数介绍：
当我们使用搜索引擎去查询相关资料的时候，都会通过一个搜索的关键词去查找资料。这个输入的关键字就是URL中用到的参数
然后查看浏览器中地址栏的时候会发现url地址中有一个 ? （问号），那么问号后边就是请求参数，也叫做查询字符串
发送带参数的请求：
例如：去百度搜索美女关键字就可以用这种方式：
https://www.so.com/s?q=美女

注意点：
在 url 地址中很多参数是没有用的，比如 360 搜索的 url 地址中的参数只有一个字段有用，其他的都可以删除。对于请求参数是否有用可以挨个删除来测试，查看网页数据是否有变化

URL传参的转码：
如果直接从搜索引擎页面查询资料，那么输入中文的查询参数就会编程一串十六进制的乱码。这是因为当URL路径或者查询参数中带有中文或者特殊字符的时候，就会对URL进行编码（十六进制编码格式），如果想确定转码后的十六进制数据是原来的查询参数，可以使用urllib库中的parse模块中的urlencode 和 unquote 方法来进行编码和解码

from urllib import parse
data = {
'kw': '美女'
}
# 对中文进行编码
data1 = parse.urlencode(data)
print('编码结果为：', data1)
# 解码成中文
data2 = parse.unquote('%E7%BE%8E%E5%A5%B3')
print('解码结果为：', data2)

运行结果：

编码结果为： kw=%E7%BE%8E%E5%A5%B3
解码结果为： 美女

2.URL直接传递参数

在URL中可以直接传递参数，只需要在定义URL链接的时候传入值即可

import requests
# 定义请求头
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36
(KHTML, like Gecko) Chrome/102.0.0.0 Safari/537.36"
}
# 定义URL地址
url = 'https://www.so.com/s?q=美女'
# 发送网络请求并接收响应
response = requests.get(url, headers=headers)
# 将爬取到的数据保存成html文件
with open ('美女.html','wb') as file:
	file.write(response.content)

3.使用Params传参

如果需要抓取多个不同关键字的网页数据，就推荐使用 Params 的方式传递参数。 Params传递参数需要先定义一个参数字典，然后在requests.get() 方法中传入定义好的参数字典，从而完成页面的参数查询操作。
请求参数的用法

requests.get(url,params=kw)

如果涉及到复杂的多级参数时，为了保证程序代码的灵活性，可以通过params参数来传参

import requests

headers={
		"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36
(KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"
}

# 定义目标url地址
url = 'https://www.so.com/s?'

# 获取查询参数字符串
input_str = input('请输入查询内容：')

#请求参数是一个字典 即wd=python,如果有多个请求参数，则添加多个键值对数据
kw = {'q': input_str}

# 带上请求参数发起请求，获取响应
response = requests.get(url, headers=headers, params=kw)

# 将爬取到的数据保存成html文件
with open(f'{input_str}.html','wb') as file:
	file.write(response.content)

4.网易云音乐案例

下载音乐
获取想要下载音乐的网址（按F12打开监视），操作如下图
在这里插入图片描述
进而根据前面所学，我们就可以写出下面这段代码

import requests

# 定义需要访问的url
url ='http://music.163.com/song/media/outer/url?id=2606578055'

# 定义请求头
headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36'
}

# 发送请求
response = requests.get(url,headers=headers)

# 查看响应的状态码
print(response)

# 创建接受文件
with open('拿范儿.mp3','wb') as file:
    file.write(response.content)

PS：以上这段代码，是在登录状况下完成运行并且将音乐下载成功的，如果不登录，绝大部分网站会拒绝你的请求，所以建议在登录的情况下，运行上述代码，后续会讲到模拟登录

批量下载音乐可以通过下面这段优化后的代码实现

import requests

# 定义请求头
headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36'
}

# 1、输入歌曲名称
music_name = input('请输入你想下载的歌曲名称:')
# 2、输入歌曲的ID
music_id = input('请输入你想下载的歌曲ID:')

# 3、通过音乐接口拼接完整下载链接
music_url = 'http://music.163.com/song/media/outer/url?id=' + music_id

# 发送请求
response = requests.get(music_url,headers=headers)

# 查看响应的状态码
print(response)

# 创建接受文件
with open(f'{music_name}.mp3','wb') as file:
    file.write(response.content)

print(f'《{music_name}》下载成功')