文本处理工具:grep,egrep和fgrep

grep,egrep, fgrep:文本过滤工具(模式:pattern)工具;

    grep:基本正则表达式,-E,-F

    egrep:扩展正则表达式, -G,-F

    fgrep:不支持正则表达式,

      正则表达式:RegualExpression, REGEXP

    由一类特殊字符及文本字符所编写的模式,其中有些字符不表示其字面意义,而是用于表示控制或通配的功能;

    分两类:

      基本正则表达式:BRE

      扩展正则表达式:ERE

                          

   grep: Globalsearch REgular expression and Print out the line.

      作用:文本搜索工具,根据用户指定的“模式(过滤条件)”对目标文本逐行进行匹配检查;打印匹配到的行;            

      模式:由正则表达式的元字符及文本字符所编写出的过滤条件;

                  

    正则表达式引擎;

                  

      grep  [OPTIONS] PATTERN  [FILE...]

      grep  [OPTIONS] [-e PATTERN | -f FILE]  [FILE...]

                  

        OPTIONS:

          --color=auto:对匹配到的文本着色后高亮显示;

           -i:ignorecase,忽略字符的大小写;

           -o:仅显示匹配到的字符串本身;

           -v,--invert-match:显示不能被模式匹配到的行;

           -E:支持使用扩展的正则表达式元字符;

           -q,--quiet, --silent:静默模式,即不输出任何信息;

                                    

           -A#:after, 后#行

           -B#:before,前#行

           -C #:context,前后各#行

                                    

    基本正则表达式元字符:

      字符匹配:

        .:匹配任意单个字符;

        []:匹配指定范围内的任意单个字符;

        [^]:匹配指定范围外的任意单个字符;

        [:digit:]、[:lower:]、[:upper:]、[:alpha:]、[:alnum:]、[:punct:]、[:space:]

          

      匹配次数:用在要指定其出现的次数的字符的后面,用于限制其前面字符出现的次数;默认工作于贪grep 婪模式;

        *:匹配其前面的字符任意次;0,1,多次;

        .*:匹配任意长度的任意字符

        \?:匹配其前面的字符0次或1次;即其前面的字符是可有可无的;

        \+:匹配其前面的字符1次或多次;即其面的字符要出现至少1次;

        \{m\}:匹配其前面的字符m次;

        \{m,n\}:匹配其前面的字符至少m次,至多n次;

            \{0,n\}:至多n次

            \{m,\}:至少m次

                                            

      位置锚定:

        ^:行首锚定;用于模式的最左侧;

        $:行尾锚定;用于模式的最右侧;

        ^PATTERN$:用于PATTERN来匹配整行;

        ^$:空白行;

        ^[[:space:]]*$:空行或包含空白字符的行;

                                              

      单词:非特殊字符组成的连续字符(字符串)都称为单词;

         \< 或 \b:词首锚定,用于单词模式的左侧;

         \>或 \b:词尾锚定,用于单词模式的右侧;

         \<PATTERN\>:匹配完整单词;

                 

      练习:

        1、显示/etc/passwd文件中不以/bin/bash结尾的行;

         ~]#grep -v "/bin/bash$" /etc/passwd

        wKioL1Z-XarRcBE1AAAbtzrvfLY124.png



        2、找出/etc/passwd文件中的两位数或三位数;

         ~]#grep "\<[0-9]\{2,3\}\>" /etc/passwd

        wKioL1Z-X5SRmiaJAAArN6iHQM0324.png

        3、找出/etc/rc.d/init.d/functions或/etc/grub2.cfg文件中,以至少一个空白字符开头,且后面非空白字符的行;

         ~]#grep  "^[[:space:]]\+[^[:space:]]"  /etc/grub2.cfg

        wKiom1Z-X5OSeCmjAAAfAn4dZT4807.png                                                  

        4、找出"netstat-tan"命令的结果中以'LISTEN'后跟0、1或多个空白字符结尾的行;

         ~]#netstat -tan | grep "LISTEN[[:space:]]*$"

        wKioL1Z-X8ijwiJfAAATJj-VdB4874.png

      分组及引用

        \(\):将一个或多个字符捆绑在一起,当作一个整体进行处理;

        \(xy\)*ab

                                                       

      注意:分组括号中的模式匹配 到的内容会被正则表达式引擎自动记录于内部的变量中,这些变量为:

        \1:模式从左侧起,第一个左括号以及与之匹配的右括号之间的模式所匹配到的字符;

        \2:模式从左侧起,第二个左括号以及与之匹配的右括号之间的模式所匹配到的字符;

        ...

                                              

            Heloves his lover.

            Helikes his lover.

            Shelikes her liker.

            Sheloves her liker.

                                                                

        ~]#grep  "\(l..e\).*\1"  lovers.txt

        wKiom1Z-X-Xglo10AACYfCR1Iq0498.png                                                         

        后向引用:引用前面的分组括号中的模式所匹配到的字符;


     egrep:

                  

        支持扩展的正则表达式实现类似于grep文本过滤功能;grep -E

                  

        egrep[OPTIONS] PATTERN [FILE...]

          选项:

            -i,-o, -v, -q, -A, -B, -C

            -G:支持基本正则表达式

                                    

          扩展正则表达式的元字符:

            字符匹配:

              .:任意单个字符

              []:指定范围内的任意单个字符

              [^]:指定范围外的任意单个字符

                                                       

            次数匹配:

              *:任意次,0,1或多次;

              ?:0次或1次,其前的字符是可有可无的;

              +:其前字符至少1次;

              {m}:其前的字符m次;

              {m,n}:至少m次,至多n次;

              {0,n}

              {m,}

            位置锚定

              ^:行首锚定;

              $:行尾锚定;

              \<,\b:词首锚定;

              \>,\b:词尾锚定;

            分组及引用:

              ():分组;括号内的模式匹配到的字符会被记录于正则表达式引擎的内部变量中;

              后向引用:\1, \2,...

            或:

              a|b:a或者b;

              C|cat:C或cat

              (c|C)at:cat或Cat

                                                       

      练习:

        1、找出/proc/meminfo文件中,所有以大写或小写S开头的行;至少有三种实现方式;

        ~]#grep -i "^s" /proc/meminfo

        ~]#grep "^[sS]" /proc/meminfo

        ~]#grep -E "^(s|S)" /proc/meminfo

        wKioL1Z-YO_DnD8zAAA-cZHtmMw418.png                                              

        2、显示肖前系统上root、centos或user1用户的相关信息;

        ~]#egrep "^(root|centos|user1)\>" /etc/passwd

        wKioL1Z-YTjD5qqSAAAW_VYSnts058.png                                              

        3、找出/etc/rc.d/init.d/functions文件中某单词后面跟一个小括号的行;

        ~]#egrep  "[_[:alnum:]]+\(\)"  /etc/rc.d/init.d/functions

        wKioL1Z-YU3jXDqEAAAWhcvqgZg089.png                                                

        4、使用echo命令输出一绝对路径,使用egrep取出基名;

        ~]#echo /etc/sysconfig/ | egrep -o "[^/]+/?$"

        wKiom1Z-YWTSOp8tAAAQTGURDFM065.png                                              

          进一步:取出其路径名;类似于对其执行dirname命令的结果;

        wKioL1Z-YY-wmEL7AAAJCiQjhqc662.png

        5、找出ifconfig命令结果中的1-255之间的数值;

        ~]#ifconfig|egrep -"\<([1-9]|[1-9][0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5])\>"

        wKiom1Z-YYmDJGXRAAAP6k4FUsM780.png

        6、课外作业:找出ifconfig命令结果中的IP地址;

        ~]# ifconfig | grep -o'[0-9]\{1,3\}\.[0-9]\{1,3\}\.[0-9]\{1,3\}\.[0-9]\{1,3\}'

        wKiom1Z-YZ-x99tXAAANUc55zkM019.png

        7、添加用户bash,testbash, basher以及nologin(其shell为/sbin/nologin);而后找出/etc/passwd文件中用户名同shell名的行;

        ~]#egrep "^([^:]+\>).*\1$" /etc/passwd

        wKioL1Z-Ycqyc2L-AAAOg4nVUas718.png   

 

     fgrep:不支持正则表达式元字符;

        当无需要用到元字符去编写模式时,使用fgrep必能更好;

 

 

sed命令:

    sed[OPTION]...  'script'  [input-file] ...

      script:

        地址定界编辑命令

                           

    常用选项:

      -n:不输出模式空间中的内容至屏幕;

      -escript, --expression=script:多点编辑;

    示例:~]# sed -e 's@^#[[:space:]]*@@' -e '/^UUID/d' /etc/fstab

      -f  /PATH/TO/SED_SCRIPT_FILE

    每行一个编辑命令;

      -r,--regexp-extended:支持使用扩展正则表达式;

      -i[SUFFIX],--in-place[=SUFFIX]:直接编辑原文件;

 

    地址定界:

      (1)空地址:对全文进行处理;

      (2)单地址:

        #:指定行;

        /pattern/:被此模式所匹配到的每一行;

      (3)地址范围

        #,#:

        #,+#:

        #,/pat1/

        /pat1/,/pat2/

        $:最后一行;

      (4)步进:~

        1~2:所有奇数行

        2~2:所有偶数行

                                    

    编辑命令:

        d:删除;

        p:显示模式空间中的内容;

        a  \text:在行后面追加文本“text”,支持使用\n实现多行追加;

        i  \text:在行前面插入文本“text”,支持使用\n实现多行插入;

        c  \text:把匹配到的行替换为此处指定的文本“text”;

        w/PATH/TO/SOMEFILE:保存模式空间匹配到的行至指定的文件中;

        r  /PATH/FROM/SOMEFILE:读取指定文件的内容至当前文件被模式匹配到的行后面;文件合并;

        =:为模式匹配到的行打印行号;

        !:条件取反;

    地址定界!编辑命令;

        s///:查找替换,其分隔符可自行指定,常用的有s@@@, s###等;

          替换标记:

            g:全局替换;

            w/PATH/TO/SOMEFILE:将替换成功的结果保存至指定文件中;

            p:显示替换成功的行;

                                    

    练习1:删除/boot/grub/grub2.cfg文件中所有以空白字符开头的行的行首的所有空白字符;

        ~]#sed 's@^[[:space:]]\+@@' /etc/grub2.cfg

        wKioL1Z-YrfxzyYTAAAZBy-dky8307.png

    练习2:删除/etc/fstab文件中所有以#开头的行的行首的#号及#后面的所有空白字符;

        ~]#sed's@^#[[:space:]]*@@'/etc/fstab

        wKiom1Z-Ys2DtVWMAAAXpOnCBUE372.png

    练习3:输出一个绝对路径给sed命令,取出其目录,其行为类似于dirname;

        ~]#echo "/var/log/messages/" | sed 's@[^/]\+/\?$@@'

        ~]#echo "/var/log/messages" | sed -r 's@[^/]+/?$@@'

        wKioL1Z-YvCzf1m_AAAQJ-utBNY088.png

    高级编辑命令:

      h:把模式空间中的内容覆盖至保持空间中;

      H:把模式空间中的内容追加至保持空间中;

      g:把保持空间中的内容覆盖至模式空间中;

      G:把保持空间中的内容追加至模式空间中;

      x:把模式空间中的内容与保持空间中的内容互换;

      n:覆盖读取匹配到的行的下一行至模式空间中;

      N:追加读取匹配到的行的下一行至模式空间中;

      d:删除模式空间中的行;

      D:删除多行模式空间中的所有行;

                           

    示例:

      sed  -n 'n;p'  FILE:显示偶数行;

      sed  '1!G;h;$!d' FILE:逆序显示文件的内容;

      sed  ’$!d'  FILE:取出最后一行;

      sed  '$!N;$!D' FILE:取出文件后两行;

      sed'/^$/d;G' FILE:删除原有的所有空白行,而后为所有的非空白行后添加一个空白行;

      sed  'n;d' FILE:显示奇数行;

      sed'G' FILE:在原有的每行后方添加一个空白行;