Python爬虫篇--3

最新推荐文章于 2021-12-06 20:03:15 发布

迦零

最新推荐文章于 2021-12-06 20:03:15 发布

阅读量92

点赞数

分类专栏： python爬虫

本文链接：https://blog.csdn.net/qq_45919097/article/details/105282588

版权

4 篇文章 1 订阅

订阅专栏

学习笔记

python的re库：

.match()方法：两个参数分别是需传入的正则表达式和需要匹配的字符串，是从头位置开始匹配的（细节：标记匹配目标、贪婪与非贪婪、修饰符、转义匹配等），返回match对象；
.search()方法：用途如：利用正则表达式获取第一对“作者、书名”对应信息，返回match对象；
.findall()方法：匹配所有符合正则表达式的字符串，并以列表形式返回。用途如：利用正则表达式获取所有“作者、书名”对应信息；
.split()方法：将一个字符串按照正则表达式匹配结果进行分割，返回列表类型；
.sub()方法：使用某一字符串替换字符串中的某一部分，如将字符串中所有数字替换为空(即‘ ’)，使其被去除，返回改变后的字符串；
.compile()方法：用途如：封装正则表达式，这样对于相同类型的字符串处理就不用一一特定地编写正则表达式了

代码格式：

from bs4 import BeautifulSoup
soup = BeautifulSoup('<p>data<p>', html.parser)

返回的soup类型的的基本元素：

标签树的遍历：

.find_all()方法：

注：对soup对象使用，进行信息提取

.find_all(name, attrs, recursive, string, **kwargs)

返回一个列表类型，储存查询结果。

bs4库的prettify()方法：

作用：prettify()方法能够美化修饰HTML码，在各个标签或内容后加一个’＼n’，借此将其美化，把它美化后print出来，就变成一个规范的HTML码了

关注