爬虫之re匹配

最新推荐文章于 2023-05-18 17:47:45 发布

k次

最新推荐文章于 2023-05-18 17:47:45 发布

阅读量191

点赞数 5

文章标签： python 爬虫数据分析

本文链接：https://blog.csdn.net/qq_53075298/article/details/121598866

版权

该博客介绍了Python中使用re模块进行正则表达式操作，如`re.compile`, `re.search`, `re.match`和`re.findall`。同时展示了如何从HTML字符串中提取``标签的`title`属性和`

`标签的内容。示例代码演示了如何匹配和提取字符串中的特定信息。

摘要由CSDN通过智能技术生成

# -*- coding: utf-8 -*-
import re  # 内置库
from requests_html import HTMLSession

"""
1、re.compile  正则表达式的语法
2、re.search   找一个
3、re.match    从头找一个 没有返回None
4、re.findall  找所有 返回列表

.       匹配任意字符，除了换行符，re.DOTALL标记被指定时，则可以匹配包括换行符的任意字符
*       匹配0个或多个的表达式
+       匹配1个或者多个的表达式
?       匹配0个或1个由前面的正则表达式定义的片段，非贪婪方式
[]       表示一组字符。
"|"      A|B，创建一个正则，将匹配A或B。

\s      匹配任何空白字符
\d      匹配任何数字
"""

str1 = '<link rel="search" type="application/opensearchdescription+xml" href="/content-search.xml" title="百度搜索1" title="百度搜索2"/>'
 result = re.findall('title="(.*?)"', str1)  # 第一个参数正则，第二个屎字符串

print(result)


str2 = """
<html>
    <body>
        <p>python</p>
        <div>
            Line 1
        </div>
    </body>
</html>
"""

result1 = re.findall('<p>(.*?)</p>', str2)  # 匹配p标签的内容
 print(result1[0])
# re.S可以多行匹配  re的对象是一行一行匹配
 result2 = re.findall('<div>(.*?)</div>', str2, re.S)[0].strip()  # 得到列表，取下标0，得到字符串，通过strip()去除两边空白
 print(result2)

k次

关注

5
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬虫之re匹配

# -*- coding: utf-8 -*-import re # 内置库from requests_html import HTMLSession"""1、re.compile 正则表达式的语法2、re.search 找一个3、re.match 从头找一个没有返回None4、re.findall 找所有返回列表. 匹配任意字符，除了换行符，re.DOTALL标记被指定时，则可以匹配包括换行符的任意字符* 匹配0个或多个的表达式+
复制链接

扫一扫