初始爬虫
1.请求对象的定制
(1)url的基本组成:
以以下网址为例解析url的组成:
https://www.baidu.com/s?
wd=%E8%B5%B5%E4%B8%BD%E9%A2%96&rsv_spt=1&rsv_iqid=0xbdbc332a0000b47f&issp
=1&f=8&rsv_bp=1&rsv_idx=2&ie=utf-
8&tn=baiduhome_pg&rsv_dl=tb&rsv_sug3=2&rsv_sug1=1&rsv_sug7=100&rsv_sug2=0&rsv_btyp
e=i&inputT=1641&rsv_sug4=1641
一个完整的url由协议,主机,端口号,路径,参数,锚点六部分组成(如下图)
(2)常见的端口号:
常见端口号:http-80,https-443,mysql-3306,oracle-1521,redis-6379,mongodb-27017
(3)对出现的第一种反爬手段的处理——即ua代理
uA介绍:User Agent中文名为用户代理,简称UA,它是一个特殊字符串头,使得服务器能够识别
客户使用的操作系统及版本、CPU类型、浏览器及版本。浏览器内核、浏览器渲染引擎、浏览器语
言、浏览器插件等
首先UA只是简称,大家都这样叫,他的全称是:User-Agent,一般网络请求都会带这个东西,它标
识了你自己的一些电脑信息,一些特征字符串,说白了,就是包含了,用户信息,应用类型,操作
系统,软件版本号,这些信息组合起来的一个字符串信息。
由于urlopen方法不能传递字典类型的数据,所以ua传递不进去,因此这里得用到请求对象的定制
具体操作如下:
import urllib.request
url='www.网址.com'
headers={
'ua':'ua'
}
request=urllib.request.Request(url=url,headers=headers)
#特别注意,上面这一行的操作不可以写成request=urllib.request.Request(url,headers),这是传参顺序约束那边的知识点
2.get请求的urlencode方法
urlencode的应用场景:多个参数情况下的quote方法
import urllib.request
import urllib.parse
url='http://www.baide.com/s?'
name={
'wd':'周杰伦',
'sex':'男',
'location':'中国台湾省'
}
data=urllib.parse.urlencode(name)
data1=url+data
header={
'ua代理':'ua代理'
}
request=urllib.request.Request(url=url,headers=headers)
response=urllib.request.urlopen(request)
content=response.read().decode('utf-8')
print(content)
#结果为——wd=%E5%91%A8%E6%9D%B0%E4%BC%A6&sex=%E7%94%B7&location=%E4%B8%AD%E5%9B%BD%E5%8F%B0%E6%B9%BE%E7%9C%81
3.知识点穿插:
(1).获取得到的ua必须用字典类型来存储