grep和正则表达式

grep和正则表达式

摘要

1、描述grep文本搜索工具。
2、初识正则表达式.
3、描述扩展正则表达式egrep。

一、Linux上的grep文本搜索工具

Linux文本处理工具:
            grep:文本过滤工具(模式:patten)
            sed:文本编辑器,流编辑器
            awk:Linux上的实现为gawk,文本报告生成器(格式化文本)

grep:
        作用:文本搜索工具,根据用户指定的“模式(过滤条件)”对目标文本逐行进行匹配检查,打印匹配到的行
        模式:由正则表达式的元字符所编写的过滤条件

        grep [OPTIONS] PATTERN [FILE]......
        grep [OPTIONS] [-e PATTERN | -f FILE] [FILE...]
            OPTIONS:
                --color=auto:  对匹配到的文本进行着色高亮显示
                -i   在文本过滤时忽略字符大小写
                -o  仅显示匹配到的字符串的本身
                -v  反向匹配。显示不能被模式匹配到的行
                -E  支持使用扩展的正则表达式元字符
                -q,-quiet,-silent 静默模式,即不输出任何内容和信息
                -A #(数字) 显示匹配后#行
                -B #  显示匹配前#行
                -C # 显示匹配上下#行
二、基本正则表达式
1)字符匹配   
        *:匹配任意长度的任意字符
        ? :匹配任意单个字符
               pa?   ??pa   p?a   p?a?
        [ ]: 匹配指定范围内的任意单个字符
        有几种特殊格式:
                [a-z]  [A-Z] [0-9] [a-z0-9] [abcxyz]    pa[0-9][a-z]    pa2[0-9][0-9]
                [[:upper:]]   只匹配大写字母
                [[:lower:]]   只匹配小写字母
                [[:alpha:]]   只匹配所有字母
                [[:digit:]]   只匹配所有数字
                [[:alnum:]]   只匹配所有字母和数字
                [[:space:]]   所有空白字符  touch p \空格  a
                [[:punct:]]   匹配所有符号
                [^] :匹配指定范围外的单个字符(非!!)
                      [^[:upper:]]  
                      [^0-9]
2)字符匹配
        .   匹配任意单个字符 
        []  匹配指定范围内的任意单个字符
        [^] 匹配指定范围外的任意单个字符
        匹配次数  用在要指定其出现的次数的字符的后面,用于显示其前面字符出现的次数
        *  匹配前面的字符任意次数;  0次  1次  N次
            eg:  grep "x*y"
                    abxy    aby  xxxxy  yab
        .*  匹配任意长度的任意字符
        \? 匹配其前面的字符0次或者1次,即其前面的字符是可有可无的
        \+  匹配其前面的字符1次或者多次,即前面的字符至少出现一次
        \{m\}  精确匹配其前面次数m次,m替换为数字
        \{m,n\}  匹配前面的字符至少m次,最多n次
                \{0,n\}  至多n次,至少0次
                 \{m,\}   至少m次          
3)位置锚定
        ^  行首锚定  用于写在模式的最左侧     ^root
        $   行尾锚定  用于模式的最右侧            root$
        ^PATHERN$  用于PATHERN来匹配整行
                    ^$  空白行,不包括任意字符
                    ^[[:space:]]*$  空行或包括空白字符的行
        单词:非特殊字符组成的连续字符(字符串)
            \<或者 \b   词首锚定,用于单词模式的左侧
            \>或者\b    词尾锚定,用于单词模式的右侧
            \<PATHERN>\  匹配完整单词
    练习:
            1、显示/etc/passwd文件中不以/bin/bash结尾的行
                    grep  -v "/bin/bash$"   etc/passwd
            2、找出/etcpasswd文件中两位数或三位数
                    grep  “\<[0-9]\[2,3\]>\”  /etc/passwd
            3、找出/etc/rc.d/rc.susinit文件中,以至少一个空白字符开头,且后面非空白字符的行
                    grep  "^[[:space:]]\+[^[:space:]]" /etc/rc.d/rc.susinit
            4、找出“netstat -tan”命令的结果中以‘LISTEN’后跟0.1或多个空白字符结尾的行 
                   netstat -tan |  grep  "LISTEN[[:space:]]*$" 
4)分组和引用
     1、分组: 将一个或者多个字符捆绑在一次,当做一个整理处理  ,其符号是: \(\)                                       
                    eg:\(xy)\* ab  把xy当做一个整体的字符
        Note  分组括号中的模式匹配到的内容会被正则表达式引擎自动记录在内部的变量中,这些变量为:
            \1    模式从左侧起,第一个左括号以及与之匹配的右括号之间的模式所匹配到的字符
            \2    模式从左侧起,第二个左括号以及与之匹配的右括号之间的模式所匹配到的字符
            \3   模式从左侧起,第三个左括号以及与之匹配的右括号之间的模式所匹配到的字符
            。。。。。
     2、后向引用:  引用前面的分组括号中的模式所匹配到的字符
三、扩展正则表达式egrep:
支持扩展的正则表达式实现类似于grep文本过滤功能: grep -E
    语法:
          grep [OPTIONS] PATTERN [FILE...]
          grep [OPTIONS] [-e PATTERN | -f FILE] [FILE...]
    命令选项:
                             -i   在文本过滤时忽略字符大小写
                            -o  仅显示匹配到的字符串的本身
                            -v  反向匹配。显示不能被模式匹配到的行
                            -E  支持使用扩展的正则表达式元字符
                            -q,-quiet,-silent 静默模式,即不输出任何内容和信息
                            -A #(数字) 显示匹配后#行
                            -B #  显示匹配前#行
                            -C # 显示匹配上下#行
                            -G 支持基本正则表达式
1)扩展正则表达式的元字符:    
    字符匹配 
                .  任意单个字符
                [ ] 指定范围内的任意单子字符
                [^ ]指定范围外的任意单个字符
    次数匹配
                *  任意次 
                ? 0次或1次,其前的字符是可有可无的
                +  其前字符至少1次
                {m}:其前的字符m次
                {m,n} 至少m次,至多n次    {0,n}  {m,}
    位置锚定
                ^ 行首锚定
                $ 行尾锚定
                \<,\b   词首锚定
                \>,\b  词尾锚定
    分组及引用
                0 :分组 ,括号内的模式匹配到的字符会被记录于正则表达式引擎的内部变量中
                后向引用: \1    \2  .........
                    或者
                a|b  表示a或者b
                        C|cat   表示C或者cat
                        (c|C)at   表示cat或者Cat
练习:
        1、找出/proc/meminfo文件中,所有以大写或小写S开头的行;至少有三种实现方式;
            ~]# grep -i "^s" /proc/meminfo
            ~]# grep "^[sS]" /proc/meminfo
            ~]# grep -E "^(s|S)" /proc/meminfo
        2、显示肖前系统上root、centos或user1用户的相关信息;
            ~]# grep -E "^(root|centos|user1)\>" /etc/passwd   
        3、找出/etc/rc.d/init.d/functions文件中某单词后面跟一个小括号的行;
            ~]# grep  -E  -o  "[_[:alnum:]]+\(\)"  /etc/rc.d/init.d/functions  
        4、使用echo命令输出一绝对路径,使用egrep取出基名;
            ~]# echo /etc/sysconfig/ | grep  -E  -o  "[^/]+/?$"
            进一步:取出其路径名;类似于对其执行dirname命令的结 
        5、找出ifconfig命令结果中的1-255之间的数值;
            ~]# ifconfig | grep  -E  -o  "\<([1-9]|[1-9][0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5])\> “                  
        6、课外作业:找出ifconfig命令结果中的IP地址;                  
        7、添加用户bash, testbash, basher以及nologin(其shell为/sbin/nologin);而后找出/etc/passwd文件中用户名同shell名的行;
            ~]# grep  -E  "^([^:]+\>).*\1$"  /etc/passwd

2)fgrep:不支持正则表达式元字符
    当不需要用到元字符去编写模式时,使用fgrep更好               

3)正则表达式: Regual Expression   REGEXP
        定义:由一类特殊字符及文本字符所编写的格式,有些字符不表示其字面意义,而是用于表示控制或者通配的功能。
        分为两类:
                1)基本正则表达式: BRE
                2)扩展正则表达式: ERE
        元字符: \(hello[[:space:]]\+\)+
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值