Python-100-Days 网络URL与爬虫 Day14

本文主要介绍了Python中的网络URL处理和爬虫应用。内容涵盖了解构URL、request模块的使用,如urlretrieve函数下载网页文件,以及处理SSL证书错误的方法。还提到了URL的parse操作,如使用urlparse和urlsplit进行URL分解。在爬虫请求部分,讨论了request.Request类的应用,遇到的问题以及如何处理cookie。最后,提到了http.cookiejar模块用于管理cookie,包括保存和加载即将过期的cookie信息。
摘要由CSDN通过智能技术生成

Day14 网络URL与爬虫应用

----容易忘的点

x=4.4
y=2
print(x/y)   结果是2.2
print(x//y)   结果是2    
浮点数类似

1.在python中解构URL

----request 请求

from urllib import request#网络请求库
resp=request.urlopen('http://www.baidu.com')
#print(resp.read())           #显示源代码
#print(resp.readlines())
print(resp.getcode())       #请求返回的http状态码

----urlretrieve函数:可以将网页上的一个文件保存到本地

from urllib import request
request.urlretrieve('https://timgsa.baidu.com/timg?image&quality=80&size=b9999_10000&sec=1604926764429&di=a9062172e99953a81297bafad98ad719&imgtype=0&src=http%3A%2F%2Fimg2.imgtn.bdimg.com%2Fit%2Fu%3D1250826167%2C1778280409%26fm%3D214%26gp%3D0.jpgm','trump.jpgm')

----parse 编码解码

from urllib import parse      #parse 编码解码
data={'name':'爬虫数据','greet':'hello world','age':100}
q=parse.urlencode(data)     #字典数据转换为URL编码数据
print(q)

----Python: 报错[SSL: CERTIFICATE_VERIFY_FAILED]

from urllib import request
import ssl                                                  #ssl模式修改目标网站使用的自签名的证书
ssl._create_default_https_context = ssl._create_unverified_context
#ps:带中文的链接粘贴进python后自动编码了???不需要进行编码吗?
url='https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=1&rsv_idx=1&tn=baidu&wd=%E5%88%98%E5%BE%B7%E5%8D%8E&fenlei=256&oq=%25E4%25BA%25AC%25E4%25B8%259C&rsv_pq=b7110fc700009954&rsv_t=af16tUuAFfFXo23vuCK5mqr3Nk%2B8p%2F0mjQUE4sDj7X6woE7tywzI%2FdpWv9o&am
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值