有四个函数:
int regcomp (regex_t *compiled, const char *pattern, int cflags)
参数1: 结构体 --- 编译(字符串---结构体)存储正则表达式
参数2: 正则表达式串。
参数3: 标志位:
1. 扩展正则:REG_EXTENDED
2. 忽略大小写:REG_ICASE
3. 识别换行符:REG_NEWLINE ---> ^ $
4. 指定是否存储匹配结果:REG_NOSUB ---> regexec函数参3取0值,并且参4取NULL
返回值:成功0;失败错误号
int regexec (regex_t *compiled, char *string, size_t nmatch, regmatch_t matchptr[], int eflags)
参数1: regcomp编译后传出的 结构体
参数2: 待用正则表达式 进行匹配的字符串
参数3: 数组大小
参数4: 用来存储返回结果的数组
参数5: 标志位:
1. REG_NOTBOL 使^无效
2. REG_NOTEOL 使$无效
返回值:成功0;失败错误号
regmatch_t 是一个结构体数据类型,在regex.h中定义:
typedef struct {
regoff_t rm_so;
regoff_t rm_eo;
} regmatch_t;
成员rm_so 存放匹配文本串在目标串中的开始位置,rm_eo 存放结束位置。通常我们以数组的形式定义一组这样的结构。因为往往我们的正则表达式中还包含子正则表达式。数组0单元存放主正则表达式位置,后边的单元依次存放子正则表达式位置。
在regexec 中第三个参数是这个结构体的数组,里面有两个成员,一个是字符串开始,一个是结束
当我们使用完编译好的正则表达式后,或者要重新编译其他正则表达式的时候,我们可以用这个函数清空compiled指向的regex_t结构体的内容,请记住,如果是重新编译的话,一定要先清空regex_t结构体。
void regfree (regex_t *compiled) ---> 释放结构体。
size_t regerror (int errcode, regex_t *compiled, char *buffer, size_t length)
errcode 是由regcomp 和 regexec 函数返回的错误代号。
compiled 是已经用regcomp函数编译好的正则表达式,这个值可以为NULL。
buffer 指向用来存放错误信息的字符串的内存空间。
length 指明buffer的长度,如果这个错误信息的长度大于这个值,则regerror 函数会自动截断超出的字符串,但他仍然会返回完整的字符串的长度。所以我们可以用如下的方法先得到错误字符串的长度。
例如: size_t length = regerror (errcode, compiled, NULL, 0);
#include <sys/types.h>
#include <regex.h>
#include <stdio.h>
int main(int argc, char ** argv)
{
if (argc != 3) {
printf("Usage: %s RegexString Text\n", argv[0]);
return 1;
}
const char * pregexstr = argv[1];
const char * ptext = argv[2];
regex_t oregex;
int nerrcode = 0;
char szerrmsg[1024] = {0};
size_t unerrmsglen = 0;
if ((nerrcode = regcomp(&oregex, pregexstr, REG_EXTENDED|REG_NOSUB)) == 0) {
if ((nerrcode = regexec(&oregex, ptext, 0, NULL, 0)) == 0) {
printf("%s matches %s\n", ptext, pregexstr);
regfree(&oregex);
return 0;
}
}
unerrmsglen = regerror(nerrcode, &oregex, szerrmsg, sizeof(szerrmsg));
unerrmsglen = unerrmsglen < sizeof(szerrmsg) ? unerrmsglen : sizeof(szerrmsg) - 1;
szerrmsg[unerrmsglen] = '\0';
printf("ErrMsg: %s\n", szerrmsg);
regfree(&oregex);
return 1;
}
匹配网址:
./a.out "http:\/\/www\..*\.com" "http://www.taobao.com"
匹配邮箱:
./a.out "^[a-zA-Z0-9]+@[a-zA-Z0-9]+.[a-zA-Z0-9]+" "itcast123@itcast.com"
./a.out "\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*" "itcast@qq.com"
注:\w匹配一个字符,包含下划线