python实战学习2——爬虫

闲客散人

已于 2023-07-23 23:40:34 修改

阅读量824

点赞数

文章标签：学习

于 2023-07-23 23:26:40 首次发布

本文链接：https://blog.csdn.net/m0_73631277/article/details/131886245

版权

初始爬虫

1.请求对象的定制

（1）url的基本组成：

以以下网址为例解析url的组成：

https://www.baidu.com/s？

wd=%E8%B5%B5%E4%B8%BD%E9%A2%96&rsv_spt=1&rsv_iqid=0xbdbc332a0000b47f&issp

=1&f=8&rsv_bp=1&rsv_idx=2&ie=utf-

8&tn=baiduhome_pg&rsv_dl=tb&rsv_sug3=2&rsv_sug1=1&rsv_sug7=100&rsv_sug2=0&rsv_btyp

e=i&inputT=1641&rsv_sug4=1641

一个完整的url由协议，主机，端口号，路径，参数，锚点六部分组成（如下图）

（2）常见的端口号：

常见端口号：http-80，https-443，mysql-3306，oracle-1521，redis-6379，mongodb-27017

（3）对出现的第一种反爬手段的处理——即ua代理

uA介绍：User Agent中文名为用户代理，简称UA，它是一个特殊字符串头，使得服务器能够识别

客户使用的操作系统及版本、CPU类型、浏览器及版本。浏览器内核、浏览器渲染引擎、浏览器语

言、浏览器插件等

首先UA只是简称，大家都这样叫，他的全称是：User-Agent,一般网络请求都会带这个东西，它标

识了你自己的一些电脑信息，一些特征字符串，说白了，就是包含了，用户信息，应用类型，操作

系统，软件版本号，这些信息组合起来的一个字符串信息。

由于urlopen方法不能传递字典类型的数据，所以ua传递不进去，因此这里得用到请求对象的定制

具体操作如下：

import urllib.request
url='www.网址.com'
headers={
    'ua':'ua'
}
request=urllib.request.Request(url=url,headers=headers)
#特别注意，上面这一行的操作不可以写成request=urllib.request.Request(url,headers)，这是传参顺序约束那边的知识点

2.get请求的urlencode方法

urlencode的应用场景：多个参数情况下的quote方法

import urllib.request
import urllib.parse
url='http://www.baide.com/s?'
name={
    'wd':'周杰伦',
    'sex':'男',
    'location':'中国台湾省'
}
data=urllib.parse.urlencode(name)
data1=url+data
header={
    'ua代理':'ua代理'
}
request=urllib.request.Request(url=url,headers=headers)
response=urllib.request.urlopen(request)
content=response.read().decode('utf-8')
print(content)
#结果为——wd=%E5%91%A8%E6%9D%B0%E4%BC%A6&sex=%E7%94%B7&location=%E4%B8%AD%E5%9B%BD%E5%8F%B0%E6%B9%BE%E7%9C%81