python实战学习2——爬虫

初始爬虫

1.请求对象的定制

 (1)url的基本组成:

以以下网址为例解析url的组成:

https://www.baidu.com/s?

wd=%E8%B5%B5%E4%B8%BD%E9%A2%96&rsv_spt=1&rsv_iqid=0xbdbc332a0000b47f&issp

=1&f=8&rsv_bp=1&rsv_idx=2&ie=utf-

8&tn=baiduhome_pg&rsv_dl=tb&rsv_sug3=2&rsv_sug1=1&rsv_sug7=100&rsv_sug2=0&rsv_btyp

e=i&inputT=1641&rsv_sug4=1641

一个完整的url由协议,主机,端口号,路径,参数,锚点六部分组成(如下图)

(2)常见的端口号:

常见端口号:http-80,https-443,mysql-3306,oracle-1521,redis-6379,mongodb-27017

(3)对出现的第一种反爬手段的处理——即ua代理

uA介绍:User Agent中文名为用户代理,简称UA,它是一个特殊字符串头,使得服务器能够识别

客户使用的操作系统及版本、CPU类型、浏览器及版本。浏览器内核、浏览器渲染引擎、浏览器语

言、浏览器插件等

首先UA只是简称,大家都这样叫,他的全称是:User-Agent,一般网络请求都会带这个东西,它标

识了你自己的一些电脑信息,一些特征字符串,说白了,就是包含了,用户信息,应用类型,操作

系统,软件版本号,这些信息组合起来的一个字符串信息。

由于urlopen方法不能传递字典类型的数据,所以ua传递不进去,因此这里得用到请求对象的定制

具体操作如下:

import urllib.request
url='www.网址.com'
headers={
    'ua':'ua'
}
request=urllib.request.Request(url=url,headers=headers)
#特别注意,上面这一行的操作不可以写成request=urllib.request.Request(url,headers),这是传参顺序约束那边的知识点

2.get请求的urlencode方法

urlencode的应用场景:多个参数情况下的quote方法

import urllib.request
import urllib.parse
url='http://www.baide.com/s?'
name={
    'wd':'周杰伦',
    'sex':'男',
    'location':'中国台湾省'
}
data=urllib.parse.urlencode(name)
data1=url+data
header={
    'ua代理':'ua代理'
}
request=urllib.request.Request(url=url,headers=headers)
response=urllib.request.urlopen(request)
content=response.read().decode('utf-8')
print(content)
#结果为——wd=%E5%91%A8%E6%9D%B0%E4%BC%A6&sex=%E7%94%B7&location=%E4%B8%AD%E5%9B%BD%E5%8F%B0%E6%B9%BE%E7%9C%81

3.知识点穿插:

(1).获取得到的ua必须用字典类型来存储

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值