linux文本处理-sed,sort,uniq,join,cut,paste,split

最新推荐文章于 2024-08-16 21:46:01 发布

vzvzvxz

最新推荐文章于 2024-08-16 21:46:01 发布

阅读量1.3k

点赞数

分类专栏：系统配置文章标签： join linux 脚本 file 正则表达式测试

系统配置专栏收录该内容

20 篇文章 0 订阅

订阅专栏

linux学习--sed,sort,uniq,join,cut,paste,split

==============================sed==========================

sed是一个非交互性性文本编辑器, 它编辑文件或标准输入导出的文件拷贝。标准输入可能是来自键盘、文件重定向、字符串或变量,或者是一个管道文件。sed可以随意编辑小或大的文件,有许多 sed命令用来编辑、删除,并允许做这项工作时不在现场。sed一次性处理所有改变,因而变得很有效,对用户来说,最重要的是节省了时间。sed必须通过行号和正则表达式指定要改变的文本行

sed怎样读取数据:
sed从文件的一个文本行或从标准输入的几种格式中读取数据,将之拷贝到一个编辑缓冲区,然后读命令行或脚本的第一条命令,并使用这些命令查找模式或定位行号编辑它,重复过程直到命令结束

sed命令的调用:
    在命令行键入命令;将sed命令插入脚本文件,然后调用sed;将sed命令插入脚本文件,并使sed脚本可执行
    sed [option] sed命令输入文件            在命令行使用sed命令,实际命令要加单引号
    sed [option] -f sed脚本文件输入文件     使用sed脚本文件
    sed脚本文件 [option] 输入文件            第一行具有sed命令解释器的sed脚本文件
    option如下:
      n 不打印; sed不写编辑行到标准输出,缺省为打印所有行(编辑和未编辑),p命令可以用来打印编辑行
       c 下一命令是编辑命令,使用多项编辑时加入此选项
      f 如果正在调用sed脚本文件,使用此选项,此选项通知sed一个脚本文件支持所用的sed命令,如
           sed -f myscript.sed input_file 这里myscript.sed即为支持sed命令的文件
    使用重定向文件即可保存sed的输出

使用sed在文本中定位文本的方式:
    x        x为一行号,比如1
    x,y     表示行号范围从x到y,如2,5表示从第2行到第5行
    /pattern/    查询包含模式的行,如/disk/或/[a-z]/
    /pattern/pattern/   查询包含两个模式的行,如/disk/disks/
    /pattern/,x   在给定行号上查询包含模式的行,如/disk/,3
    x,/pattern/ 通过行号和模式查询匹配行,如 3,/disk/
    x,y!     查询不包含指定行号x和y的行

基本sed编辑命令:
    p      打印匹配行                      c\     用新文本替换定位文本
    =      显示文件行号                     s     使用替换模式替换相应模式
    a\     在定位行号后附加新文本信息        r     从另一个文本中读文本
    i\     在定位行号后插入新文本信息        w     写文本到一个文件
    d      删除定位行                      q     第一个模式匹配完成后退出或立即退出
    l      显示与八进制ASCII代码等价的控制字符        y 传送字符
    n      从另一个文本中读文本下一行,并附加在下一行   {}     在定位行执行的命令组
    g      将模式2粘贴到/pattern n/

基本sed编程举例:
    使用p(rint)显示行: sed -n '2p' temp.txt   只显示第2行,使用选项n
    打印范围:   sed -n '1,3p' temp.txt         打印第1行到第3行
    打印模式: sed -n '/movie/'p temp.txt     打印含movie的行
    使用模式和行号查询: sed -n '3,/movie/'p temp.txt   只在第3行查找movie并打印
    显示整个文件: sed -n '1,$'p temp.txt      $为最后一行
    任意字符:   sed -n '/.*ing/'p temp.txt      注意是.*ing,而不是*ing
    打印行号: sed -e '/music/=' temp.txt
    附加文本:(创建sed脚本文件)chmod u+x script.sed,运行时./script.sed temp.txt
        #!/bin/sed -f
         /name1/ a\             #a\表示此处换行添加文本
        HERE ADD NEW LINE.     #添加的文本内容
    插入文本: /name1/ a\ 改成 4 i\ 4表示行号,i插入
    修改文本: /name1/ a\ 改成 /name1/ c\ 将修改整行,c修改
    删除文本: sed '1d' temp.txt   或者 sed '1,4d' temp.txt
    替换文本: sed 's/source/OKSTR/' temp.txt     将source替换成OKSTR
             sed 's/\$//g' temp.txt              将文本中所有的$符号全部删除
             sed 's/source/OKSTR/w temp2.txt' temp.txt 将替换后的记录写入文件temp2.txt
    替换修改字符串: sed 's/source/"ADD BEFORE" &/p' temp.txt
              结果将在source字符串前面加上"ADD BEFORE",这里的&表示找到的source字符并保存
    sed结果写入到文件: sed '1,2 w temp2.txt' temp.txt
                     sed '/name/ w temp2.txt' temp.txt
    从文件中读文本: sed '/name/r temp2.txt' temp.txt
    在每列最后加文本: sed 's/[0-9]*/& Pass/g' temp.txt
    从shell向sed传值: echo $NAME | sed "s/go/$REP/g"   注意需要使用双引号

快速一行命令:
    's/\.$//g'          删除以句点结尾行
    '-e /abcd/d'       删除包含abcd的行
    's/[][][]*/[]/g'   删除一个以上空格,用一个空格代替
    's/^[][]*//g'      删除行首空格
    's/\.[][]*/[]/g'   删除句号后跟两个或更多的空格,用一个空格代替
    '/^$/d'            删除空行
    's/^.//g'          删除第一个字符,区别 's/\.//g'删除所有的句点
    's/COL/(...\)//g' 删除紧跟COL的后三个字母
    's/^\///g'         删除路径中第一个\

    's/^[0-9]//g'                       去除行首数字

================================合并与分割==========================
sort uniq join cut paste split
================sort用法=====================
sort命令将许多不同的域按不同的列顺序分类。
1、sort选项
sort命令的一般格式为：
sort -cmu -o output_file [other options] +pos1 +pos2 input_files
下面简要介绍一下s o r t的参数：
-c 测试文件是否已经分类。
-m 合并两个分类文件。
-u 删除所有复制行。
-o 存储s o r t结果的输出文件名。
其他选项有：
-b 使用域进行分类时，忽略第一个空格。
-n 指定分类是域上的数字分类。
-t 域分隔符；用非空格或t a b键分隔域。
-r 对分类次序或比较求逆。
+n n为域号。使用此域号开始分类。
n n为域号。在分类比较时忽略此域，一般与+ n一起使用。
post1 传递到m，n。m为域号，n为开始分类字符数；例如4，6意即以第5域分类，从第7个字符开始。
2、sort启动方式
缺省情况下， s o r t认为一个空格或一系列空格为分隔符。要加入其他方式分隔，使用- t选项。
sort执行时，先查看是否为域分隔设置了- t选项，如果设置了，则使用它来将记录分隔成域0、域1等等；
如果未设置，用空格代替。缺省时s o r t将整个行排序，指定域号的情况例外。
关于s o r t的一个重要事实是它参照第一个域作为域0，域1是第二个域，等等。
3、文件是否已分类
sort -c data.txt
4、sort分类求逆
如果要逆向s o r t结果，使用-r选项。
   sort -t: -r video.txt
5、按指定域分类
有时需要只按第2域（分类键1）分类。
sort -t: +1 video.txt
6、数值域分类
用-n选项。必须用，不然得不到想要的结果。
sort -t: +3n video.txt
7、唯一性分类
使用- u选项进行唯一性（不重复）分类以去除重复行。
8、使用k的其他sort方法
sort还有另外一些方法指定分类键。可以指定k选项。
sort -t: -k4 video.txt

使用k做分类键排序：
可以指定分类键次序。先以第4域，再以第1域分类，命令为-k4 -k1
sort -t: -k4 -k1 video.txt
9、指定sort序列
可以指定分类键顺序，也可以使用- n选项指定不使用哪个分类键进行查询。看下面的sort命令：
sort +0 -2 +3
该命令意即开始以域0分类，忽略域2，然后再使用域3分类。
10、pos用法
指定开始分类的域位置的另一种方法是使用如下格式：
sort +filed.characterin
意即从filed开始分类，但是要在此域的第characterin个字符开始。
11、使用head和tail将输出分类
可以使用h e a d或t a i l查阅任何大的文本文件
head -200 filename
12、awk使用sort输出结果
13、将两个分类文件合并
将文件合并前，它们必须已被分类.
使用-m +0。将这个文件并入已存在的分类文件v i d e o . s o r t，要以名称域进行分类，实际上没有必要加入+ o，但为了保险起见，还是加上的好。
   sort -t: -m +0 video2.txt video.sort

   ===================uniq用法====================
uniq用来从一个文本文件中去除或禁止重复行。一般u n i q假定文件已分类，并且结果正确。
sort的唯一性选项去除所有重复行，而uniq命令并不这样做。重复行是什么？在uniq里意即持续不断重复出现的行，中间不夹杂任何其他文本.
命令一般格式：
   uniq -u d c -f inputfile outputfile
其选项含义：
   -u 只显示不重复行。
   -d 只显示有重复数据行，每种重复行只显示其中一行
   -c 打印每一重复行出现次数。
   -f n为数字，前n个域被忽略。
   一些系统不识别- f选项，这时替代使用- n。
对特定域进行测试:
使用- n只测试一行一部分的唯一性。例如- 5意即测试第5域后各域唯一性。域从1开始记数。
如果忽略第1域，只测试第2域唯一性，使用- n 2，下述文件包含一组数据，其中第2域代表组代码。
   uniq -f2 parts.txt或
   uniq -n2 parts.txt
==================join用法(强大呀，像sql里面的join 呢)========================
join用来将来自两个分类文本文件的行连在一起。
下面讲述join工作方式。这里有两个文件f i l e 1和f i l e 2，当然已经分类。每个文件里都有一
些元素与另一个文件相关。由于这种关系， join将两个文件连在一起，这有点像修改一个主文
件，使之包含两个文件里的共同元素。
为有效使用join，需分别将输入文件分类：
join的格式：
join [option] file1,file2
an n 为一数字，用于连接时从文件n中显示不匹配行。例如， -a1显示第一个文件的不匹
配行，- a2为从第二个文件中显示不匹配行。
o n.m n为文件号，m为域号。1.3表示只显示文件1第三域，每个n，m必须用逗号分隔，
如1.3,2.1。
j n m   n为文件号，m为域号。使用其他域做连接域
t 域分隔符。用来设置非空格或t a b键的域分隔符。例如，指定冒号做域分隔符- t：

连接域为域0,缺省join删除或去除连接键的第二次重复出现:
   join names.txt town.txt
1、不匹配连接,下面的例子显示匹配及不匹配域
   join -a1 -a2 names.txt town.txt
只显示第一个文件中不匹配行：
   join -a1 names.txt town.txt
2、选择性连接
使用- o选项选择连接域。例如要创建一个文件仅包含人名及城镇， j o i n执行时需要指定显示域。方式如下：
使用1 . 1显示第一个文件第一个域，2 . 2显示第二个文件第二个域，其间用逗号分隔。命令为：
   join -o 1.1,2.2 names.txt town.txt
使用-jn m进行其他域连接，例如用文件1域3和文件2域2做连接键，命令为:
   join -j1 3 -j2 2 names.txt town.txt

===========================cut用法=========================================
cut用来从标准输入或文本文件中剪切列或域。剪切文本可以将之粘贴到一个文本文件。
cut一般格式为：
cut [options] file1 file2
下面介绍其可用选项：
-c list 指定剪切字符数。
-f field 指定剪切域数。
-d 指定与空格和t a b键不同的域分隔符。
-c 用来指定剪切范围，如下所示：
-c 1，5-7 剪切第1个字符，然后是第5到第7个字符。
-c1-50 剪切前5 0个字符。
-f 格式与- c相同。
-f 1，5 剪切第1域，第5域。
- f 1，10-12 剪切第1域，第1 0域到第1 2域。

剪切指定域:
cut命令中剪切各域需用逗号分隔，如剪切域1和3，可以使用：
cut -d: -f1,3 pers

=========================paste用法==========================================
cut用来从文本文件或标准输出中抽取数据列或者域，然后再用paste可以将这些数据粘贴
起来形成相关文件。粘贴两个不同来源的数据时，首先需将其分类，并确保两个文件行数相同。
paste将按行将不同文件行信息放在一行。缺省情况下，paste连接时，用空格或t a b键分隔
新行中不同文本，除非指定- d选项，它将成为域分隔符。
paste格式为；
   paste -d -s -file1 file2
选项含义如下：
-d 指定不同于空格或t a b键的域分隔符。例如用@分隔域，使用- d @。
-s 将每个文件合并成行而不是按行粘

paste命令管道输入:
paste命令还有一个很有用的选项（ -）。意即对每一个（ -），从标准输入中读一次数据。
使用空格作域分隔符，以一个4列格式显示目录列表。方法如下：
   ls |paste -d":" - - - -
=========================split用法==========================================
split用来将大文件分割成小文件。

split -output_file-size input-filename output-filename
每个文件格式为x [ a a ]到x [ z z ]，x为文件名首字母， [ a a ]、[ z z ]为文件名剩余部分顺序字符组合.
   split -5000 url_access_user.txt splitfile

-------------

6. 实例
删除：d命令
*
$ sed '2d' example-----删除example文件的第二行。
*
$ sed '2,$d' example-----删除example文件的第二行到末尾所有行。
*
$ sed '$d' example-----删除example文件的最后一行。
*
$ sed '/test/'d example-----删除example文件所有包含test的行。
替换：s命令
*
$ sed 's/test/mytest/g' example-----在整行范围内把test替换为mytest。如果没有g标记，则只有每行第一个匹配的test被替换成mytest。
*
$ sed -n 's/^test/mytest/p' example-----(-n)选项和p标志一起使用表示只打印那些发生替换的行。也就是说，如果某一行开头的test被替换成mytest，就打印它。
*
$ sed 's/^192.168.0.1/&localhost/' example-----&符号表示替换换字符串中被找到的部份。所有以192.168.0.1开头的行都会被替换成它自已加 localhost，变成192.168.0.1localhost。
*
$ sed -n 's/$love$able/\1rs/p' example-----love被标记为1，所有loveable会被替换成lovers，而且替换的行会被打印出来。
*
$ sed 's#10#100#g' example-----不论什么字符，紧跟着s命令的都被认为是新的分隔符，所以，“#”在这里是分隔符，代替了默认的“/”分隔符。表示把所有10替换成100。
选定行的范围：逗号
*
$ sed -n '/test/,/check/p' example-----所有在模板test和check所确定的范围内的行都被打印。
*
$ sed -n '5,/^test/p' example-----打印从第五行开始到第一个包含以test开始的行之间的所有行。
*
$ sed '/test/,/check/s/$/sed test/' example-----对于模板test和west之间的行，每行的末尾用字符串sed test替换。
多点编辑：e命令
*
$ sed -e '1,5d' -e 's/test/check/' example-----(-e)选项允许在同一行里执行多条命令。如例子所示，第一条命令删除1至5行，第二条命令用check替换test。命令的执行顺序对结果有影响。如果两个命令都是替换命令，那么第一个替换命令将影响第二个替换命令的结果。
*
$ sed --expression='s/test/check/' --expression='/love/d' example-----一个比-e更好的命令是--expression。它能给sed表达式赋值。
从文件读入：r命令
*
$ sed '/test/r file' example-----file里的内容被读进来，显示在与test匹配的行后面，如果匹配多行，则file的内容将显示在所有匹配行的下面。
写入文件：w命令
*
$ sed -n '/test/w file' example-----在example中所有包含test的行都被写入file里。
追加命令：a命令
*
$ sed '/^test/a\\--->this is a example' example<-----'this is a example'被追加到以test开头的行后面，sed要求命令a后面有一个反斜杠。
插入：i命令
$ sed '/test/i\\
new line
-------------------------' example
如果test被匹配，则把反斜杠后面的文本插入到匹配行的前面。
下一个：n命令
*
$ sed '/test/{ n; s/aa/bb/; }' example-----如果test被匹配，则移动到匹配行的下一行，替换这一行的aa，变为bb，并打印该行，然后继续。
变形：y命令
*
$ sed '1,10y/abcde/ABCDE/' example-----把1--10行内所有abcde转变为大写，注意，正则表达式元字符不能使用这个命令。
退出：q命令
*
$ sed '10q' example-----打印完第10行后，退出sed。
保持和获取：h命令和G命令
*
$ sed -e '/test/h' -e '$G example-----在sed处理文件的时候，每一行都被保存在一个叫模式空间的临时缓冲区中，除非行被删除或者输出被取消，否则所有被处理的行都将打印在屏幕上。接着模式空间被清空，并存入新的一行等待处理。在这个例子里，匹配test的行被找到后，将存入模式空间，h命令将其复制并存入一个称为保持缓存区的特殊缓冲区内。第二条语句的意思是，当到达最后一行后，G命令取出保持缓冲区的行，然后把它放回模式空间中，且追加到现在已经存在于模式空间中的行的末尾。在这个例子中就是追加到最后一行。简单来说，任何包含test的行都被复制并追加到该文件的末尾。
保持和互换：h命令和x命令
*
$ sed -e '/test/h' -e '/check/x' example -----互换模式空间和保持缓冲区的内容。也就是把包含test与check的行互换。
7. 脚本
Sed脚本是一个sed的命令清单，启动Sed时以-f选项引导脚本文件名。Sed对于脚本中输入的命令非常挑剔，在命令的末尾不能有任何空白或文本，如果在一行中有多个命令，要用分号分隔。以#开头的行为注释行，且不能跨行

vzvzvxz

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
linux文本处理-sed,sort,uniq,join,cut,paste,split

linux学习--sed,sort,uniq,join,cut,paste,split==============================sed==========================sed是一个非交互性性文本编辑器, 它编辑文件或标准输入导出的文件拷贝。标准输入可能是来自键盘、文件重定向、字符串或变量,或者是一个管道文件。sed可以随意编辑小或大的文件,有许多 s
复制链接

扫一扫