python3 实现爬虫 urllib篇 + 数据处理(采用bs4) (二)

本文介绍Python3中urllib库和BeautifulSoup的使用,包括request访问方法、HTTPResponse对象、Request类以及BeautifulSoup的数据提取。通过示例详细解析了find_all和find等方法,同时提供了相关资源链接和后续文章预告。
摘要由CSDN通过智能技术生成

这次介绍urllib库和BeautifulSoup的一些细节用法
只讲如何用和数据处理,如果有些函数不明白什么作用,或者想知道Exception处理请参照前一篇文章:https://blog.csdn.net/qq_36376711/article/details/86614578

urllib为python3自带库,bs4需要cmd下 pip install bs4.如果没有成功基本是你环境变量设置问题或者pip的问题

request部分:

request访问方法一:

urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)

url可以是字符串或request对象,一般是HTTP/HTTPS链接地址

data一般不用管,目前只有HTTP/HTTPS用到data

timeout指定连接超时时间,只对HTTP,HTTPS,FTP连接生效

可选的cafile和capath参数为HTTPS请求指定一组可信CA证书。

cadefault不用管

context是描述各种SSL选项的ssl.SSLContext实例

from urllib import request

url = "https://docs.python.org/3.7/library/urllib.html"
#urlopen是request库中最简单的访问方法
content = request.urlopen(url)
#显示你访问的url地址
print(content.geturl())
#以email.message_from_string()实例的形式返回页面的元信息,例如标题
#参考:https://docs.python.org/3.7/library/email.parser.html#email.message_from_string
print(content.info())
#html访问成功则返回200
print(content.getcode())

html = content.read().decode("utf-8")

HTTP或HTTPS访问成功会返回一个http.client.HTTPResponse 对象
失败返回exception http.client.HTTPException的一种子类

urllib.request.urlopen() 对应旧版本中的 urllib2.urlopen

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值