正则表达式(Regular Expression)

正则表达式(Regular Expression)是一种文本模式,包括普通字符(例如,a 到 z 之间的字母)和特殊字符(称为"元字符"),可以用来描述和匹配字符串的特定模式,是一种用于模式匹配和搜索文本的工具,提供了一种灵活且强大的方式来查找、替换、验证和提取文本数据。

概括:正则表达式是制定特定的规则(模式),其中文本(如:字符串)满足了这种规则,表达就匹配了此种正则表达式。

一般用来进行数据校验,数据匹配(爬虫),进而进行数据分析

private void button1_Click(object sender, EventArgs e)
{
    //定义正则表达式对象,有对象才能操作
    //pattern模式
    Regex regex = new Regex("[0-9]+");//查找0-9的数字,+ 是一个量词,表示[0-9]可以出现一次或多次。
    int num = 123;
    //IsMath判断某个字符串是否匹配某个正则表达式,匹配返回true,否则返回false。
    //regex.IsMatch();
    bool result =Regex.IsMatch(num.ToString(), "[0-9]+");//返回true
    MessageBox.Show(result.ToString());

}

c#正则表达式的API

Regex 类

这是正则表达式的主要类,提供编译正则表达式模式、与字符串进行匹配、替换、拆分等操作的方法。

​Regex(string pattern)​ - 构造函数,用于创建一个新的Regex对象,其中 pattern​ 是正则表达式的字符串表示。

​Matches(string input)​ - 返回一个包含所有匹配项的 MatchCollection​。

​Match(string input)​ - 返回输入字符串中的第一个匹配项。

​Replace(string input, string replacement)​ - 替换字符串中所有匹配正则表达式的子串。

​Split(string input)​ - 根据正则表达式指定的模式拆分字符串。

Match 类表示正则表达式引擎找到的单个匹配项。

​Groups​ - 包含所有捕获组的集合。

​Success​ - 指示匹配是否成功的布尔值。

​Value​ - 匹配的字符串。

MatchCollection 类 - 表示所有匹配项的集合。
Group 类表示正则表达式中的一个捕获组。
Capture 类

表示捕获组中的单个捕获。

RegexOptions

枚举 - 定义了一组选项,可以影响正则表达式的编译和行为。

​Compiled​ - 指示应编译该正则表达式模式以便更快地执行。

​IgnoreCase​ - 指示应忽略模式和输入中的字母大小写差异。

​Multiline​ - 指示.​ 特殊字符应该匹配每一行的开始和结束,而不仅仅是整个字符串的开始和结束。

使用 Regex.Matches​ 方法来查找所有连续的数字,并打印它们。每个 Match​ 对象都包含了一个匹配的数字。

using System;
using System.Text.RegularExpressions;
using System.Windows.Forms;

namespace 正则表达式
{
    internal static class Program
    {
        /// <summary>
        /// 应用程序的主入口点。
        /// </summary>
        [STAThread]
        static void Main()
        {
            string pattern = "[0-9]+";
            string input = "有123个苹果, 456 个橙子, 和789根香蕉";
            MatchCollection matches = Regex.Matches(input, pattern);

            foreach (Match match in matches)
            {
                Console.WriteLine("数量: " + match.Value);
            }
        }
    }
}

字符转义

正则表达式中的反斜杠字符(\)指示其后跟的字符是特殊字符,或应按原义解释该字符。

(此表来自菜鸟教程)

转义字符描述模式匹配
\a与报警 (bell) 符 \u0007 匹配。\a"Warning!" + '\u0007' 中的 "\u0007"
\b在字符类中,与退格键 \u0008 匹配。[\b]{3,}"\b\b\b\b" 中的 "\b\b\b\b"
\t与制表符 \u0009 匹配。(\w+)\t"Name\tAddr\t" 中的 "Name\t" 和 "Addr\t"
\r与回车符 \u000D 匹配。(\r 与换行符 \n 不是等效的。)\r\n(\w+)"\r\nHello\nWorld." 中的 "\r\nHello"
\v与垂直制表符 \u000B 匹配。[\v]{2,}"\v\v\v" 中的 "\v\v\v"
\f与换页符 \u000C 匹配。[\f]{2,}"\f\f\f" 中的 "\f\f\f"
\n与换行符 \u000A 匹配。\r\n(\w+)"\r\nHello\nWorld." 中的 "\r\nHello"
\e与转义符 \u001B 匹配。\e"\x001B" 中的 "\x001B"
\ nnn使用八进制表示形式指定一个字符(nnn 由二到三位数字组成)。\w\040\w"a bc d" 中的 "a b" 和 "c d"
\x nn使用十六进制表示形式指定字符(nn 恰好由两位数字组成)。\w\x20\w"a bc d" 中的 "a b" 和 "c d"
\c X \c x匹配 X 或 x 指定的 ASCII 控件字符,其中 X 或 x 是控件字符的字母。\cC"\x0003" 中的 "\x0003" (Ctrl-C)
\u nnnn使用十六进制表示形式匹配一个 Unicode 字符(由 nnnn 表示的四位数)。\w\u0020\w"a bc d" 中的 "a b" 和 "c d"
\在后面带有不识别的转义字符时,与该字符匹配。\d+[\+-x\*]\d+\d+[\+-x\*\d+"(2+2) * 3*9" 中的 "2+2" 和 "3*9"

定位点

定位点或原子零宽度断言会使匹配成功或失败,具体取决于字符串中的当前位置,但它们不会使引擎在字符串中前进或使用字符。

(此表来自菜鸟教程)

断言描述模式匹配
^匹配必须从字符串或一行的开头开始。^\d{3}"567-777-" 中的 "567"
$匹配必须出现在字符串的末尾或出现在行或字符串末尾的 \n 之前。-\d{4}$"8-12-2012" 中的 "-2012"
\A匹配必须出现在字符串的开头。\A\w{4}"Code-007-" 中的 "Code"
\Z匹配必须出现在字符串的末尾或出现在字符串末尾的 \n 之前。-\d{3}\Z"Bond-901-007" 中的 "-007"
\z匹配必须出现在字符串的末尾。-\d{3}\z"-901-333" 中的 "-333"
\G匹配必须出现在上一个匹配结束的地方。\G\(\d\)"(1)(3)(5)[7](9)" 中的 "(1)"、 "(3)" 和 "(5)"
\b匹配一个单词边界,也就是指单词和空格间的位置。er\b匹配"never"中的"er",但不能匹配"verb"中的"er"。
\B匹配非单词边界。er\B匹配"verb"中的"er",但不能匹配"never"中的"er"。

具体查看C# 正则表达式 | 菜鸟教程 (runoob.com)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值