python3 实现爬虫 urllib篇 + 数据处理（采用bs4) （二）

最新推荐文章于 2022-03-07 00:14:31 发布

qq_36376711

最新推荐文章于 2022-03-07 00:14:31 发布

阅读量425

点赞数 1

分类专栏： python 文章标签：爬虫 python

本文链接：https://blog.csdn.net/qq_36376711/article/details/86675208

版权

本文介绍Python3中urllib库和BeautifulSoup的使用，包括request访问方法、HTTPResponse对象、Request类以及BeautifulSoup的数据提取。通过示例详细解析了find_all和find等方法，同时提供了相关资源链接和后续文章预告。

摘要由CSDN通过智能技术生成

这次介绍urllib库和BeautifulSoup的一些细节用法
只讲如何用和数据处理，如果有些函数不明白什么作用，或者想知道Exception处理请参照前一篇文章：https://blog.csdn.net/qq_36376711/article/details/86614578

urllib为python3自带库，bs4需要cmd下 pip install bs4.如果没有成功基本是你环境变量设置问题或者pip的问题

request部分：

request访问方法一：

urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)

url可以是字符串或request对象，一般是HTTP/HTTPS链接地址

data一般不用管，目前只有HTTP/HTTPS用到data

timeout指定连接超时时间，只对HTTP，HTTPS，FTP连接生效

可选的cafile和capath参数为HTTPS请求指定一组可信CA证书。

cadefault不用管

context是描述各种SSL选项的ssl.SSLContext实例

from urllib import request

url = "https://docs.python.org/3.7/library/urllib.html"
#urlopen是request库中最简单的访问方法
content = request.urlopen(url)
#显示你访问的url地址
print(content.geturl())
#以email.message_from_string（）实例的形式返回页面的元信息，例如标题
#参考：https://docs.python.org/3.7/library/email.parser.html#email.message_from_string
print(content.info())
#html访问成功则返回200
print(content.getcode())

html = content.read().decode("utf-8")

HTTP或HTTPS访问成功会返回一个http.client.HTTPResponse 对象
失败返回exception http.client.HTTPException的一种子类

urllib.request.urlopen() 对应旧版本中的 urllib2.urlopen

最低0.47元/天解锁文章

qq_36376711

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python3 实现爬虫 urllib篇 + 数据处理（采用bs4) （二）

这次介绍urllib库和BeautifulSoup的一些细节用法如果有些函数不明白什么作用，请参考第一篇文章urllib为python3自带库，bs4需要cmd下 pip install bs4.如果没有成功基本是你环境变量设置或者pip的问题https://blog.csdn.net/qq_36376711/article/details/86614578request访问方法一：ur...
复制链接

扫一扫

专栏目录