『来CSDN的第一天』正则表达式

最新推荐文章于 2024-10-07 16:52:45 发布

你说七里香名字很美

最新推荐文章于 2024-10-07 16:52:45 发布

阅读量126

点赞数 3

分类专栏： Skills && Tools 文章标签：正则表达式

本文链接：https://blog.csdn.net/gxdxyl/article/details/130730395

版权

Skills && Tools 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

第一天来C站，很紧张😅😅😅

正则表达式，又称规则表达式,（Regular Expression，在代码中常简写为regex、regexp或RE），是一种文本模式。它可以用来检查一个字符串是否符合某个规则，或者从一个字符串中提取出符合某个规则的子串。正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。

正则表达式是由普通字符（例如字符 a 到 z）以及特殊字符（称为"元字符"）组成的文字模式。模式描述在搜索文本时要匹配的一个或多个字符串。

一、元字符

正则表达式语法中使用的主要元字符包括：

. (点)：匹配除换行符以外的任意字符。
^ (脱字符)：匹配输入字符串的开始位置。
$ (美元符号)：匹配输入字符串的结束位置。
*(星号)：匹配前面的子表达式零次或多次。
+(加号)：匹配前面的子表达式一次或多次。
? (问号)：匹配前面的子表达式零次或一次。
{n}：n 是一个非负整数。匹配确定的 n 次。
{n,}：n 是一个非负整数。至少匹配 n 次。
{n,m}：m 和 n 均为非负整数，其中 n <= m。最少匹配 n 次且最多匹配 m 次。
[…]：字符集合。匹配方括号中包含的任意字符。
[^…]：负值字符集合。匹配方括号中不包含的任意字符。

还有：

“|”：或，匹配左右两边任意一个表达式

“”：转义字符，用于转义特殊字符，使其具有原本的字符意义，例如匹配字符".“，需要使用”.“而不是”."。

“\d”：匹配数字，相当于字符集[0-9]。

“\D”：匹配非数字字符，相当于字符集[^0-9]。

“\w”：匹配单词字符，包括数字、字母和下划线，相当于字符集[A-Za-z0-9_]。

“\W”：匹配非单词字符，相当于字符集[^A-Za-z0-9_]。

“\s”：匹配空白字符，包括空格、制表符和换行符等。

“\S”：匹配非空白字符。

“(?=exp)”：前向肯定断言，匹配exp前面的位置。

“(?!exp)”：前向否定断言，匹配非exp前面的位置。

二、常用正则表达式

使用正则表达式往往比我们写几行if-else这样的代码更加方便，以下是一些常用的正则表达式的参考（写法不唯一，且规则因国家、地区、开发语言而异）:

匹配邮箱地址：

/^[a-zA-Z0-9_-]+@[a-zA-Z0-9_-]+(\.[a-zA-Z0-9_-]+)+$/

匹配手机号码：

/^1([3-9])\d{9}$/

匹配固定电话号码：

/^\d{3}-\d{8}|\d{4}-\d{7}$/

匹配身份证号码：

/^\d{17}[\d|X|x]|\d{15}$/

匹配日期格式（yyyy-mm-dd）：

/^\d{4}-\d{1,2}-\d{1,2}$/

匹配中文字符：

/[\u4e00-\u9fa5]/

匹配URL地址：

/^((http|https):\/\/)?([\w-]+\.)+[\w-]+(\/[\w-.\/?%&=]*)?$/

匹配邮政编码：

/^[1-9]\d{5}$/

匹配IP地址：

/^((\d{1,2}|1\d{2}|2[0-4]\d|25[0-5])\.){3}(\d{1,2}|1\d{2}|2[0-4]\d|25[0-5])$/

匹配HTML标签：

/^<[^>]+>$/

匹配正整数：

/^[1-9]\d*$/

匹配负整数：

/^-\d+$/

匹配正数（包括小数）：

/^\d+(\.\d+)?$/

匹配非正数（包括小数）：

/^((-\d+(\.\d+)?)|(0+(\.0+)?))$/

匹配非负数（包括小数）：

/^\d+(\.\d+)?|0+(\.0+)?$/

匹配16进制颜色值：

/^#([0-9a-fA-f]{3}|[0-9a-fA-F]{6})$/

匹配密码强度（至少包含大写字母、小写字母、数字和特殊字符，长度至少为8位）：

/^(?=.*[A-Z])(?=.*[a-z])(?=.*\d)(?=.*[@$!%*?&)])[A-Za-z\d@$!%*?&]{8,}$/

匹配车牌号码：

/^[A-Z]{1}[A-Z_0-9]{5}$/

匹配域名：

/^([a-zA-Z0-9][-a-zA-Z0-9]{0,62}\.){1,}[a-zA-Z]{2,}$/

匹配时间格式（hh:mm:ss）：

/^([01]\d|2[0-3]):[0-5]\d:[0-5]\d$/

三、使用示例

3.1 在 grep、awk、sed中使用正则表达式

正则表达式和grep、awk、sed非常搭配。

例1： 使用grep匹配html文件中含有中文字符的行，并打印行号

 grep -nP '[\x{4e00}-\x{9fa5}]' index.html

在这里插入图片描述

在grep中，使用Unicode字符范围来匹配中文需要使用16进制表示法，[\u4e00-\u9fa5]可以写成[\x{4e00}-\x{9fa5}]。

例2： 使用awk匹配html文件中的块级标签：

awk '/^</' index.html

在这里插入图片描述

例3：匹配html文件中的函数，并显示他们所在的行数

dahu@dahu MINGW64 ~/Desktop/gpt
dahu@dahu MINGW64 ~/Desktop/gpt
$ awk '/function/{print NR,$0}' index.html
145         function ask() {
247         function addText(text) {
251         function removeLine() {
257         function setCookie(name, value) {
269         function getCookie(name) {
279         function clear1() {

例4： 使用sed匹配含有response的行：

$ sed -n '/response/p' index.html
            ).then(response => {
                let resultstring = response.data.choices[0].message.content;
                let resultname = response.data.choices[0].message.role;

3.2 在Python中使用正则表达式

可以使用Python的内置re模块来使用正则表达式。

re模块提供了Perl风格的正则表达式模式，使Python语言拥有全部的正则表达式功能。常用的正则表达式函数有：re.search()、re.match()、re.findall()、re.sub()等。

re.search()：在字符串中查找模式，如果找到则返回Match对象，否则返回None。
re.match()：从字符串的起始位置匹配一个模式，如果不是起始位置匹配成功的话，match()就返回none。
re.findall()：在字符串中查找模式，返回所有匹配到的字符串。
re.sub()：用于替换字符串中的匹配项。

例5： 判断输入手机号是否正确

import re

def judge_phone_number(account):
    pattern = re.compile(r"^1([3-9])\d{9}$")
    if pattern.match(account):
        print("手机号码输入正确")
    else:
        print("手机号码输入错误")

judge_phone_number(input("请输入手机号："))

在这里插入图片描述

注：
Python个中的正则表达式放在单、双引号里面，前面加一个r表示原始字符串，不进行转义。
正则表达式一般放在//里面，不同语言有一些区别。

3.3 在C语言中使用正则表达式

在C语言中，可以使用POSIX标准库中的正则表达式库regex.h来编写和处理正则表达式。

C语言中处理正则表达式的函数有regcomp()、regexec()、regfree()和regerror()等。

3.31 函数介绍

regcomp()函数：编译正则表达式。函数原型如下：

int regcomp(regex_t *preg, const char *regex, int cflags);

其中，preg是一个指向regex_t类型的指针，regex是一个指向正则表达式字符串的指针，cflags是编译标志。如果函数执行成功，返回值为0；否则，返回值为非0。

regexec()函数：执行匹配。函数原型如下：

int regexec(const regex_t *preg, const char *string, size_t nmatch, regmatch_t pmatch[], int eflags);

其中，preg是一个指向regex_t类型的指针，string是一个指向待匹配字符串的指针，nmatch是pmatch数组的长度，pmatch是一个指向regmatch_t类型的数组，eflags是执行标志。如果函数执行成功，返回值为0；否则，返回值为非0。

regfree()函数：释放内存。函数原型如下：

void regfree(regex_t *preg);

其中，preg是一个指向regex_t类型的指针。

regerror()函数：获取包含错误信息的字符串。函数原型如下：

size_t regerror(int errcode, const regex_t *preg, char *errbuf, size_t errbuf_size);

其中，errcode是错误代码，preg是一个指向regex_t类型的指针，errbuf是一个指向字符数组的指针，errbuf_size是字符数组的长度。如果函数执行成功，返回值为错误信息字符串的长度；否则，返回值为0。

3.32 例程

#include <stdio.h>
#include <stdlib.h>
#include <sys/types.h>
#include <regex.h>
 
int main (void)
{
    char ebuff[256];
    int ret;
    int cflags;
    regex_t reg;
 
    cflags = REG_EXTENDED | REG_ICASE | REG_NOSUB;
 
    char *test_str = "Hello World";
    char *reg_str = "H.*";
 
    ret = regcomp(&reg, reg_str, cflags);
    if (ret)
    {   
        regerror(ret, &reg, ebuff, 256);
        fprintf(stderr, "%s\n", ebuff);
        goto end;
    }   
 
    ret = regexec(&reg, test_str, 0, NULL, 0);
    if (ret)
    {
        regerror(ret, &reg, ebuff, 256);
        fprintf(stderr, "%s\n", ebuff);
        goto end;
    }   
 
    regerror(ret, &reg, ebuff, 256);
    fprintf(stderr, "result is:\n%s\n", ebuff);
 
end:
    regfree(&reg);
 
    return 0;
}