Linux命令之文本处理（一）

最新推荐文章于 2024-05-21 23:25:44 发布

拒绝内卷007

最新推荐文章于 2024-05-21 23:25:44 发布

阅读量917

点赞数

分类专栏： Linux

本文链接：https://blog.csdn.net/u012668018/article/details/46586775

版权

Linux 专栏收录该内容

33 篇文章 0 订阅

订阅专栏

wc命令

用来统计文件的字符数、行数、单词数等，很常用的命令（面试的时候竟然没想起来这个命令，我是有多么挫。。。）
使用格式为：wc options file-lists,若file-lists为空或“-”，则表示从标准输入读入数据；options为空的时候，默认输出的数据依次是行数、单词数、字节数，如下：

    m@meng:~$ wc examples.desktop
    240  569 8980 examples.desktop

下面介绍各个选项：

-c：只显示字节数，注意是字节而不是字符，不同语言的一个字符占据的字节数是不同的，一个英文字母一般只占一个字节。

        m@meng:~$ cat new
        a
        m@meng:~$ wc -c new 
        2 new

文件new中只有一个字母a，但是统计结果却是2个字节，这是因为，wc把文件末尾的换行符也统计在内，这个换行符也是挺有趣的，改天我会写一篇文章分析一下。

-m：只显示字符数，用汉语实验一下：

        m@meng:~$ cat new 
        你好
        m@meng:~$ wc -c new 
        7 new
        m@meng:~$ wc -m new 
        3 new

算上换行符，的确只有三个字符；但是占用的字节数却是7，说明一个汉字占用3个字节。

-l：只显示行数
-L：显示最长行的长度，如下：

    m@meng:~$ cat new 
    baa
    m@meng:~$ wc -L new 
    3 new

由此可见，行的长度不包含行尾换行。

-w：显示单词数，准确的含义是： A word is a non-zero-length sequence of characters delimited by white space.

sort命令

看来排序是计算机的一个刚性需求，无论哪个领域似乎都需要排序。sort用来对文件的行进行排序，输出排好序的结果，不改变源文件。
sort进行排序的单位是行，它会从每行的第一个字母开始比较，按照第一个字母的ASCII值从小到大排列行；若某两行的第一个字母相同，则比较它们的第二个字母，以此类推。但是，这种排序会受到locale环境变量的影响，不一定出现想要的结果，如下：

    m@meng:~$ cat new 
    apple 3
    Apple 7
    pear 6
    pear  4
    banana 1
    orange 8
    m@meng:~$ sort new 
    apple 3
    Apple 7
    banana 1
    orange 8
    pear  4
    pear 6

按照ASCII的话，Apple应该排在第一行，但是它却出现在第二行，这是因为当前的locale是zh_CN,修改后如下：

    m@meng:~$ export LC_ALL=C
    m@meng:~$ sort new 
    Apple 7
    apple 3
    banana 1
    orange 8
    pear  4
    pear 6

注意，修改成en_US是不管用的，改成C是因为 manual中有句话“The locale specified by the environment affects sort order. Set LC_ALL=C to get the traditional sort order that uses native byte values”，现在按照想要的方式排序了。

-t与-k选项
sort命令更强大或更常用的功能是对格式化的行进行排序，格式化是指每行由某个分隔符分成了有规律的几段，这样以来就可以指定按照哪个段来排序，而不是像普通的排序那样从每行的开头逐个字符比较。如果每行的数据是不规律的，那么按字段排序是无效的。
-t用来指定分隔符，-k用来指定哪个字段，字段从1开始计数。例如：

      m@meng:~$ sort -t " " -k 2 new 
      banana 1
      apple 3
      pear  4
      pear 6
      Apple 7
      orange 8

默认的分隔符是那些空白字符，如空格，tab等，对这些分隔符可以省略-t，所以上面的-t ” “是多次一举；分隔符只能是单个字符，所以一般不用加引号。
可以指定多个-k选项，比如-k 2 -k 3，表示先按第二个字段排序，当第二个字段相同时，按第三个字段排序。-k还有一些更复杂的用法，参见man。

-n选项
按照数字大小排序。默认情况下，文本中的数字是被当做普通字符串的，而不是真正的数字。我们现在把文本中的orange数量改成11，没有-n时如下：

      m@meng:~$ sort new -k 2
      banana     1
      orange     11
      apple  3
      pear   4
      pear   6
      Apple  7

orange被排在第二行，这是典型的字符串排序方式。加上-n之后，如下：

      m@meng:~$ sort new -k 2 -n
      banana     1
      apple  3
      pear   4
      pear   6
      Apple  7
      orange     11

-r选项：反向排序。配合-k选项时，可以直接写在字段数后面。
-o选项：相当于重定向，指定输出文件，排序结果不再输出到标准输出，而是到指定的文件中。
-c选项：并不真正排序，只是检查文件是否已经排好序。
-u选项：除去重复的行。有人认为也可以配合-k除去某字段值相同的行，我试验了一下，似乎不行，如下：

        m@meng:~$ sort new -k 1 -u
        Apple    7
        apple    3
        banana   1
        orange   11
        pear     4
        pear     6

看来要两行完全相同才能除去。

-d选项：只考虑字母和空白字符，其他字符自动忽略，如# $ %等。
-f选项：忽略大小写。
-i选项：忽略非打印字符。
主要的就是这几个选项了，以后遇到其他不错的选项再补充。

拒绝内卷007

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Linux命令之文本处理（一）

wc命令用来统计文件的字符数、行数、单词数等，很常用的命令（面试的时候竟然没想起来这个命令，我是有多么挫。。。） sort进行排序的单位是行，它会从每行的第一个字母开始比较，按照第一个字母的ASCII值从小到大排列行；若某两行的第一个字母相同，则比较它们的第二个字母，以此类推。但是，这种排序会受到locale环境变量的影响，不一定出现想要的结果
复制链接

扫一扫

专栏目录