C语言中使用正则表达式

最新推荐文章于 2023-03-14 11:23:06 发布

清新的竹青

最新推荐文章于 2023-03-14 11:23:06 发布

阅读量3.4k

点赞数 1

分类专栏： Shell Linux 文章标签：正则表达式 C语言

本文链接：https://blog.csdn.net/qq_40797605/article/details/89075902

版权

Linux 同时被 2 个专栏收录

13 篇文章 5 订阅

订阅专栏

Shell

3 篇文章 1 订阅

订阅专栏

有四个函数：

int regcomp (regex_t *compiled, const char *pattern, int cflags)

参数1：结构体 --- 编译(字符串---结构体)存储正则表达式

参数2：正则表达式串。

参数3：标志位：

1. 扩展正则：REG_EXTENDED

2. 忽略大小写：REG_ICASE

3. 识别换行符：REG_NEWLINE ---> ^ $

4. 指定是否存储匹配结果：REG_NOSUB ---> regexec函数参3取0值，并且参4取NULL

返回值：成功0；失败错误号

int regexec (regex_t *compiled, char *string, size_t nmatch, regmatch_t matchptr[], int eflags)

参数1： regcomp编译后传出的结构体

参数2：待用正则表达式进行匹配的字符串

参数3：数组大小

参数4：用来存储返回结果的数组

参数5：标志位：

1. REG_NOTBOL 使^无效

2. REG_NOTEOL 使$无效

       返回值：成功0；失败错误号

       regmatch_t 是一个结构体数据类型，在regex.h中定义：
   typedef struct {
       regoff_t rm_so;
       regoff_t rm_eo;
   } regmatch_t;
   成员rm_so 存放匹配文本串在目标串中的开始位置，rm_eo 存放结束位置。通常我们以数组的形式定义一组这样的结构。因为往往我们的正则表达式中还包含子正则表达式。数组0单元存放主正则表达式位置，后边的单元依次存放子正则表达式位置。

   在regexec 中第三个参数是这个结构体的数组，里面有两个成员，一个是字符串开始，一个是结束

当我们使用完编译好的正则表达式后，或者要重新编译其他正则表达式的时候，我们可以用这个函数清空compiled指向的regex_t结构体的内容，请记住，如果是重新编译的话，一定要先清空regex_t结构体。
void regfree (regex_t *compiled) ---> 释放结构体。

size_t regerror (int errcode, regex_t *compiled, char *buffer, size_t length)

   errcode    是由regcomp 和 regexec 函数返回的错误代号。
   compiled    是已经用regcomp函数编译好的正则表达式，这个值可以为NULL。
   buffer        指向用来存放错误信息的字符串的内存空间。
   length        指明buffer的长度，如果这个错误信息的长度大于这个值，则regerror 函数会自动截断超出的字符串，但他仍然会返回完整的字符串的长度。所以我们可以用如下的方法先得到错误字符串的长度。
   例如： size_t length = regerror (errcode, compiled, NULL, 0);

#include <sys/types.h>
	#include <regex.h>
	#include <stdio.h>

	int main(int argc, char ** argv)
	{
		if (argc != 3) {
			printf("Usage: %s RegexString Text\n", argv[0]);
			return 1;
		}
		const char * pregexstr = argv[1];
		const char * ptext = argv[2];
		regex_t oregex;
		int nerrcode = 0;
		char szerrmsg[1024] = {0};
		size_t unerrmsglen = 0;
		if ((nerrcode = regcomp(&oregex, pregexstr, REG_EXTENDED|REG_NOSUB)) == 0) {
			if ((nerrcode = regexec(&oregex, ptext, 0, NULL, 0)) == 0)	{
				printf("%s matches %s\n", ptext, pregexstr);
				regfree(&oregex);
				return 0;
			}
		}
		unerrmsglen = regerror(nerrcode, &oregex, szerrmsg, sizeof(szerrmsg));
		unerrmsglen = unerrmsglen < sizeof(szerrmsg) ? unerrmsglen : sizeof(szerrmsg) - 1;
		szerrmsg[unerrmsglen] = '\0';
		printf("ErrMsg: %s\n", szerrmsg);
		regfree(&oregex);

		return 1;
	}
	匹配网址：
	./a.out "http:\/\/www\..*\.com" "http://www.taobao.com"
	匹配邮箱：
	./a.out "^[a-zA-Z0-9]+@[a-zA-Z0-9]+.[a-zA-Z0-9]+" "itcast123@itcast.com"
	./a.out "\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*" "itcast@qq.com"
	注：\w匹配一个字符，包含下划线