正则表达式基础(一）

最新推荐文章于 2020-11-26 18:25:47 发布

lvwl1995

最新推荐文章于 2020-11-26 18:25:47 发布

阅读量296

点赞数

分类专栏：爬虫-python 文章标签：正则表达式爬虫-python

本文链接：https://blog.csdn.net/lvwl1995/article/details/78817607

版权

爬虫-python 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

一、正则表达式简介

在爬取网页内容时，需要通过某种方法将信息过滤出来，正则表达式（Regular Expression）即为一种常见的手段。相比于其他的方法（css、xpath等）略微繁琐一些，但是正则表达式十分强大，适应性强，匹配速度快。

正则表达式(regular expression)描述了一种字符串匹配的模式（pattern），可以用来检查一个串是否含有某种子串、将匹配的子串替换或者从某个串中取出符合某个条件的子串等。

示例：

假如我们想要取出下例str字符串中的数字，我们可以这样做：首先需要导入python的正则表达式re包。

import re
str = "hello1995lemon"
pattter= re.compile('.*?([0-9].*?)')
result = re.findall(patt1, str)
print (result)

上面patter中表达式中，等号右边括号的单引号里即为匹配数字的正则表达式。

二、正则表达式语法

正则表达式是由普通字符（例如字符 a 到 z）以及特殊字符（称为”元字符”）组成的文字模式。模式描述在搜索文本时要匹配的一个或多个字符串。正则表达式作为一个模板，将某个字符模式与所搜索的字符串进行匹配。
构造正则表达式需要我们将正则表达式所包含的各种元素按照我们的需求组合起来成为一个完整的表达式，从而完成匹配特定文本。它可以是单个字符、多个字符合集、自付范围或者所有元素的任意组合。