python基础爬虫

urllib库概述

1.简述作用

urllib.request:请求模块

urllib.error:异常处理模块

urllib.parse:URL解析模块

urllib.robotparser:robots.txt解析模块

2.快速爬取页面

import urllib.request
# 调用urllib库里的urlopen()方法,并传入一个url
url="https://www.runoob.com/html/html5-intro.html"
response=urllib.request.urlopen(url);
# 读取获取网页内容,并采用UTF-8格式解码
html=response.read().decode('UTF-8')

分析:

urlopen(url, data=None, timeout=socket._GLOBAL_DEFAULT_TIMEOUT,*, cafile=None, capath=None, cadefault=False, context=None)方法,可以接多个参数值

其中参数的含义如下:

url:网页资源地址

data:用来指明向服务器发送的额外信息。data默认为None,这是是以GET方式发送请求的,当data被设置值时,需要把发送请求设置为POST

timeout:设置超时时间,单位为秒

cafile/capth/cadefault:用于实现可信赖的CA证书的HTTPS请求

context:实现SSL加密传输

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值