【Shell脚本入门】

最新推荐文章于 2025-06-20 09:54:18 发布

小白--AI

最新推荐文章于 2025-06-20 09:54:18 发布

阅读量939

点赞数 2

CC 4.0 BY-SA版权

分类专栏： shell脚本文章标签： linux 运维 shell

本文链接：https://blog.csdn.net/qq11771258/article/details/132907703

shell脚本专栏收录该内容

22 篇文章

订阅专栏

本文围绕Shell编程展开，介绍了Shell中的特殊符号、表达式、变量、运算符等基础知识，涵盖条件判断、流程控制等语句，还讲解了read读取输入、函数定义等内容。此外，详细阐述了cut、sed、awk等Shell工具的使用，包括选项参数、内置变量、内置函数及awk在大数据查询中的简单应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Shell中的特殊符号

1.$
美元符号，用来表示变量的值。
如变量NAME的值为Mike，则使用$NAME就可以得到“Mike”这个值。

2.#
井号，除了做为超级用户的提示符之外，还可以在脚本中做为注释的开头字母，每一行语句中，从#号开始的部分就不执行了。

3.“”
双引号，shell不会将一对双引号之间的文本中的大多数特殊字符进行解释。
如#不再是注释的开头，它只表示一个井号“#”。但$仍然保持特殊含义。
双引号对于某些特殊符号是不起作用的， 例如：”,$,\,`(反引号)
双引号和单引号不能嵌套。即：echo ‘””’ 输出””, echo “’’” 输出’’

4.‘’
单引号，shell不会将一对单引号之间的任何字符做特殊解释。

5.``
倒引号，命令替换。在倒引号内部的shell命令首先被执行，其结果输出代替用倒引号括起来的文本，不过特殊字符会被shell解释。

6.\
斜杠，用来去掉在shell解释中字符的特殊含义。在文本中，跟在\后面的一个字符不会被shell特殊解释，但其余的不受影响。

7.{}
大括号，主要是和$符号配合，作为字符串连接来使用

echo ${HOME}ismydir
/home/qzkismydir

shell中的表达式

1.shell 输出/输入重定向
命令                                        说明
command > file                            将输出重定向到 file。
command < file                            将输入重定向到file。
command >> file                           将输出以追加的方式重定向到 file。
n >file                                   将文件描述符为n的文件重定向到file。
n>> file                                  将文件描述符为n的文件以追加的方式重定向到file。
n>&m                                      将输出文件m和n合并
n<&m                                      将输出文件m和n合并
<< tag                                    将开始标记tag 和结束标记tag 之间的内容作为输入。

输出 >
将右尖括号前的命令的输入重定向到尖括号后的文件中。

ls *.sh > list.txt
将当前目录下所有末尾名为sh的文件的列表写入到list.txt

如果要将新内容添加在文件末尾，请使用>>操作符。

输入 <
将左箭头后面的文件作为左箭头前的命令的输入。

grep “a” < test.sh
将test.sh中找到所有包含a的行

command < infile > outfile
同时替换输入和输出，执行command，从文件infile读取内容，然后将输出写入到outfile中。
错误输出重定向
默认bash有3个标准输入输出设备。

0 标准输入
1 标准输出
2 错误输出
如果执行脚本的时候发生错误，会输出到2上。
要想就将错误的输出也输出在标准输出上，需要重定向。

./test.sh > a.log 2>&1
后面2>&1就是将标准错误的输出重定向到标准输出上。

3.tee
将此命令的输入分叉，一支输出到屏幕一支可以重定向到其他位置。

./test.sh | tee >a.txt 2>&1
运行test.sh，通过tee输出到a.txt，同时屏幕上可以看到输出。并且将错误输出重定向到标准输出( 2>&1 )

3.exec
将此命令后的参数作为命令在当前的shell中执行，当前的shell或者脚本不在执行。

脚本格式

脚本以#!/bin/bash 开头（指定解析器）

Shell中的变量

1.常用系统变量

$HOME、$PWD、$SHELL、$USER等

echo $USER
xinghe

2.自定义变量
1、基本语法
(1)定义变量:变量=值
(2)撤销变量:unset 变量
(3)声明静态变量:readonly 变量，注意:不能 unset
2、变量定义规则
(1)变量名称可以由字母、数字和下划线组成，但是不能以数字开头，环境变量名建议大写。
(2)等号两侧不能有空格
(3)在 bash 中，变量默认类型都是字符串类型，无法直接进行数值运算。
(4)变量的值如果有空格，需要使用双引号或单引号括起来。

(1)定义变量 A
$ A=5
$ echo $A 
5
(2)给变量 A 重新赋值 
$ A=8
$ echo $A 
8
(3)撤销变量 A
unset A 
$ echo $A

(4)声明静态的变量 B=2，不能 unset
$ readonly B=2 
$ echo $B
2
$ B=9 
-bash: B: readonly variable
(5)在 bash 中，变量默认类型都是字符串类型，无法直接进行数值运算      
$ C=1+2 
$ echo $C 
1+2
(6)变量的值如果有空格，需要使用双引号或单引号括起来
$ D=hello world
-bash: world: command not found
$ D="hello world"
$ echo $D 
hello world
(7)可把变量提升为全局环境变量，可供其他 Shell 程序使用 export 变量名。

3.特殊变量

$n、$#、$*、$@、$?
$n (功能描述:n 为数字，$0 代表该脚本名称，$1-$9 代表第一到第九个参数，十以上的参数需要用大括号包含，如${10})

$# (功能描述:获取所有输入参数个数，常用于循环)。

$* (功能描述:这个变量代表命令行中所有的参数，$*把所有的参数看成一个整体(一个字符串))
$@ (功能描述:这个变量也代表命令行中所有的参数，不过$@把每个参数区分对待)

$? (功能描述:最后一次执行的命令的返回状态。如果这个变量的值为0，证明上一个命令正确执行;如果这个变量的值为非0(具体是哪个数，由命令自己来决定)，则证明上一个命令执行不正确了。)**

4、Shell 数组
数组中可以存放多个值。Bash Shell 只支持一维数组（不支持多维数组），初始化时不需要定义数组大小，数组元素的下标由 0 开始。

Shell 数组用括号来表示，元素用"空格"符号分割开，语法格式如下：

array_name=(value1 value2 ... valuen)

也可以使用下标来定义数组:

array_name[0]=value0 array_name[1]=value1 array_name[2]=value2

读取数组
读取数组元素值的一般格式是：

${array_name[index]}

获取数组中的所有元素
使用@ 或 * 可以获取数组中的所有元素

${array_name[*]} 
${array_name[@]}

获取数组的长度
获取数组长度的方法与获取字符串长度的方法相同，例如：

#!/bin/bash 
my_array[0]=A 
my_array[1]=B 
my_array[2]=C 
my_array[3]=D  
echo "数组元素个数为: ${#my_array[*]}" 
echo "数组元素个数为: ${#my_array[@]}"

执行脚本，输出结果如下所示：

$ chmod +x test.sh  
$ ./test.sh 
数组元素个数为: 4 
数组元素个数为: 4

运算符

1.基本语法
(1)expr + , - , * , / , % 加，减，乘，除，取余
(2)“ $((运算式)) ” 或 “$ [运算式]”
注意:expr 运算符间要有空格

(1)计算 3+2 的值
expr 2 + 3 
5
(2)计算(2+3)X4 的值
(a)expr 一步完成计算
expr `expr 2 + 3` \* 4
20      
(b)采用$[运算式]方式 
res=$((2+3))
res=$[((2+3)*4)]

条件判断

1.基本语法

[ condition ](注意 condition 前后要有空格)

注意:条件非空即为 true，[ qiuzhi ]返回 true，[] 返回 false。
2.常用判断条件
(1)两个整数之间比较
= 字符串比较

-lt 小于(less than)
-le 小于等于(less equal) 
-gt 大于(greater than)
-ne 不等于(Not equal)
-eq 等于(equal)
-ge 大于等于(greater equal)

(2)按照文件权限进行判断

-r 有读的权限(read)
-x 有执行的权限(execute)
-w 有写的权限(write)

(3)按照文件类型进行判断

-f 文件存在并且是一个常规的文件(file)
-e 文件存在(existence) 
-d 文件存在并是一个目录(directory)

(1)23 是否大于等于 22 
[ 23 -ge 22 ]
echo $?
0
(2)helloworld.sh 是否具有写权限
[ -w helloworld.sh ] 
echo $?
0
(3)/home/atguigu/cls.txt 目录中的文件是否存在 
[ -e /home/qiuzhi/cls.txt ]
echo $?
1
(4)多条件判断(&& 表示前一条命令执行成功时，才执行后一条命令，|| 表示上一条命令执行失 败后，才执行下一条命令)
[ -w helloworld.sh ] && echo OK || echo notok
OK
[ -w helloworld1.sh ] && [ ] || echo notok 
notok

流程控制

1.if 判断

基本语法

if [条件判断式] 
then
  程序 
fi
或者
if [条件判断式]
then 
    程序
elif [ 条件判断式 ] 
then 
    程序
else 
    程序
fi

注意事项:
(1)[ 条件判断式 ]，中括号和条件判断式之间必须有空格
(2)if 后要有空格

2.case 语句

基本语法

case $变量名 in
"值 1")
    如果变量的值等于值 1，则执行程序 1 
;;
"值 2")
    如果变量的值等于值 2，则执行程序 2 
;;
...省略其他分支... 
*)
    如果变量的值都不是以上的值，则执行此程序
;; 
esac

注意事项:

case 行尾必须为单词“in”，每一个模式匹配必须以右括号“)”结束。
双分号“;;”表示命令序列结束，相当于 java 中的 break。
最后的“*)”表示默认模式，相当于 java 中的 default，*不可以加双引号。

3.for 循环

基本语法 1

for ((初始值;循环控制条件;变量变化))
do 
    程序
done
基本语法 2

for 变量 in 值 1 值 2 值 3...
do 
    程序
done

比较 $* 和$ @区别
(a) $* 和$ @都表示传递给函数或脚本的所有参数，不被双引号“”包含时，都以$1 $2 \dots$ n 的形式输出所有参数。
(b)当它们被双引号“”包含时，“$*”会将所有的参数作为一个整体，以“$1 $2 \dots$ n”的形式输出所有参数;“$@”会将各个参数分开，以“$1” “ $2” \dots ”$ n” 的形式输出所有参数。

4.while 循环

基本语法

while [ 条件判断式 ] 
do
    程序 
done

注意事项:
while 后面需要有空格

read 读取控制台输入

基本语法
read(选项)(参数)
选项:

-p:指定读取值时的提示符;
-t:指定读取值时等待的时间(秒)。

参数

变量:指定读取值的变量名

函数

1.系统函数
1、basename 基本语法
basename [string / pathname] [suffix]
basename 命令会删掉所有的前缀包括最后一个(‘/’)字符，然后将字符串显示出来。
选项:
suffix 为后缀，如果 suffix 被指定确定的后缀值了，basename 会将 pathname 或 string 中的后缀去掉。

2、dirname 基本语法

dirname 文件绝对路径
从给定的包含绝对路径的文件名中去除文件名 (非目录的部分)，然后返回剩下的路径(目录的部分)

自定义函数

基本语法
[ function ] funname[()] 
{
    Action;
    [return int;] 
}
funname

经验技巧
(1)必须在调用函数地方之前，先声明函数，shell 脚本是逐行运行。不会像其它语言一样先编译。
(2)函数返回值，只能通过$?(代表了上个命令的退出状态，或函数的返回值)系统变量获得，可以显示加 return 返回，如果不加，将以最后一条命令运行结果，作为返回值。

Shell 工具

1.cut
cut 的工作就是“剪”，具体的说就是在文件中负责剪切数据用的。cut 命令从文件的每一行剪切字节、字符和字段并将这些字节、字符和字段输出。

基本用法

cut [选项参数] filename

说明:默认分隔符是制表符
选项参数说明

-f: 列号，提取第几列
-d: 分隔符，按照指定分隔符分割列
-c: 指定具体的字符

[admin@ datas]$ vim words 
hello world !!
hadoop spark hive
张三 李四 王五
(1)根据" "切割 words 第一、三列 
[admin@ datas]$ cut -d " " -f 1,3 words
(2)根据" "切割，获取 words 第 2 行第 1 列
[admin@ datas]$ cat words | head -n 2 | tail -n 1 | cut -d " " -f 1
(3)选取系统 PATH 变量值 
[admin@ datas]$ echo $PATH
选取系统 PATH 变量值，第 2 个“:”开始后的所有路径: 
[admin@ datas]$ echo $PATH | cut -d : -f 2-
选取系统 PATH 变量值，第 4 列(包括第 4 列)之前的所有路径: 
[admin@ datas]$ echo $PATH | cut -d : -f -4
选取系统 PATH 变量值，第 2 到 4 列(包括第 2 到 4 列)之间的所有路径: 
[admin@mc datas]$ echo $PATH | cut -d : -f 2-4
(4)切割 ifconfig 后打印的 IP 地址
[admin@ ~]$ ifconfig
获取 ip 地址
[admin@ ~]$ ifconfig | grep "inet" | tail -n 1 | cut -d " " -f 9- | cut -d " " -f 2

2.sed
sed 是一种流编辑器，它一次处理一行内容。处理时，把当前处理的行存储在临时缓冲区中，称为“模式空间”，接着用 sed 命令处理缓冲区中的内容，处理完成后，把缓冲区的内容送往屏幕。接着处理下一行，这样不断重复，直到文件末尾。文件内容并没有改变，除非你使用重定向存储输出。

基本用法

sed [选项参数] ‘command’ filename
选项参数说明

-e: 直接在指令列模式上进行 sed 的动作编辑
-i: 直接编辑文件

命令功能描述

a: 新增，a 的后面可以接字串，在下一行出现
d: 删除
s: 查找并替换

(0)数据准备
[admin@ datas]$ vim words 
hello world !!
hadoop spark hive
张三 李四 王五
(1)将“lucy 1234 www”这个单词插入到 words 第二行下，打印。
[admin@ datas]$ sed "2a lucy 1234 www" words
(2)删除 words 文件所有包含 h 字母的行 
[admin@ datas]$ sed "/h/d" words
(3)将 words 文件中 h 字母替换为 H 字母 
[admin@ datas]$ sed "s/h/H/g" words
注意:‘g’表示 global，全部替换
(4)将 words 文件中的第二行删除并将 h 字母替换为 H 字母 
[admin@ datas]$ sed -e "2d" -e "s/h/H/g" words

3.awk
一个强大的文本分析工具，把文件逐行的读入，以空格为默认分隔符将每行切片，切开的部分再进行分析处理。

基本用法

awk [选项参数] ‘pattern1{action1} pattern2{action2}...’ filename

pattern:表示 AWK 在数据中查找的内容，就是匹配模式
action:在找到匹配内容时所执行的一系列命令

选项参数说明

-F: 指定输入文件折分隔符
-v(小写): 赋值一个用户定义变量

(1)awk+action 简单示例 
数据准备
[admin@ datas]$ vim words 
hello world !!
hadoop spark hive 
张三 李四 王五             
找到 words 文件的第 1 列
[admin@ datas]$ awk '{print $1}' words
(2)awk+pattern+action 示例
awk 可以使用正则
搜索 passwd 文件，以:分隔，输出以 a 字母开头的所有行 
[admin@ datas]$ awk -F ':' '/^a/{print $0}' passwd         
搜索 passwd 文件，以:分隔，输出以 a 字母开头的所有行的第 1 列和第 6 列，两列之间加上--字符
[admin@ datas]$ awk -F ':' '/^a/{print $1"--"$6}' passwd
注意:有正则的时候，只有匹配了 pattern 的行才会执行 action
搜索 passwd 文件，输出以 a 字母开头的所有行的第 1 列和第 6 列，以--分割，且在开头第一行的上面添加一行列名“1 列”“6 列”，以--分隔，在最后一行的下面添加一行内容"这是所有的以 a 开头的行的 1、6 两列"。
[admin@ datas]$ awk -F ':' 'BEGIN{print "1 列--6 列"} /^a/{print $1"--"$6} END {print "这是所有的以 a 开头的行的 1、6 两列"}' passwd
注意:BEGIN 在所有数据读取行之前执行;END 在所有数据执行之后执行。
搜索 passwd 文件，输出以 a 字母开头的所有行的第 1 列和第 6 列，以空格分割，且在开头第一行的上面添加一行列名“行号”“1 列”“6 列”，以空格分隔，在最后一行的下面添加一行内容"这是所有的以 a 开头的行的 1、6 两列"，并且给每一行一个行号(从 1 开始，以此类推，不包括开始和结束行)
[admin@ datas]$ awk -v i=0 -F ':' \
'BEGIN{print "行号","1 列","6 列"} \
/^a/{print ++i,$1,$6} \
END {print "这是所有的以 a 头的行的 1、6 两列"}' \ 
passwd

运算符

= += -= *= /= %= ^= **=   赋值
?:   C 条件表达式
||   逻辑或
&&   逻辑与
~ 和 !~   匹配正则表达式和不匹配正则表达式
< <= > >= != ==   关系运算符
空格   连接
+-   加，减
* / %   乘，除与求余
+ - !    一元加，减和逻辑非
^ ***    求幂
++ --    增加或减少，作为前缀或后缀 $ 字段引用
in    数组成员

搜索 passwd 文件，输出以 a 字母开头的第 2、3 行的第 1 列和第 6 列，以空格分割，且在开头第一行的上面添加一行列名“行号”“1 列”“6 列”，以空格分隔，在最后一行的下面添加一行内容"这是所有的以 a 开头的行的 1、6 两列"，并且给每一行一个行号 (从 1 开始，以此类推，不包括开始和结束行)
[admin@ datas]$ awk -v i=0 -F ':' '/^a/{print ++i,$1,$6}' passwd | awk 'BEGIN{print "行号","1 列","6 列"} $1>=2&&$1<=3 {print $0} END {print "这是 所有的以a 头的行的1、6两列"}'

print 和 printf

[admin@ datas]$ vim person 
张三 男 13          
想要把上面 person 的内容输出为以下这样: 
姓名:张三
性别:男
年龄:13
使用 print，print 输出字符串，直接拼接
[admin@ datas]$ awk '{print "姓名:"$1"\n 性别:"$2"\n 年龄:"$3}' person

使用 printf，printf 是格式化输出，语法格式为 printf 格式参数

[admin@ datas]$ awk '{printf ("姓名:%s\n 性别:%s\n 年龄:%d\n",$1,$2,$3)}' person

注意:printf 可以直接在命令行使用，但是在命令行中使用和在 awk 中有些区别直接使用是这样写

[admin@ datas]$ printf "姓名:%s\n 性别:%s\n 年龄:%d\n" "张三" "男" 11

常用转义字符

 \" - 转义后的双引号 
 \\ - 转义后的反斜杠
 \b - 退格符 
 \n - 换行符
 \r - 回车符
 \t - 水平制表符 
 \v - 垂直制表符
 %% - 单个%符号

格式化常用的类型转换符

 %d - 将参数打印为十进制整数
 %f - 将参数打印为浮点数 
 %s - 将参数打印为字符串
 %x - 将参数打印为十六进制整数
 %o - 将参数打印为八进制整数

awk 的内置变量

$n   当前记录的第 n 个字段，字段间由 FS 分隔
$0    完整的输入记录
ARGC    命令行参数的数目
ARGIND    命令行中当前文件的位置(从 0 开始算) 
ARGV    包含命令行参数的数组
CONVFMT    数字转换格式(默认值为%.6g)
ENVIRON    环境变量关联数组 
ERRNO    最后一个系统错误的描述
FIELDWIDTHS    字段宽度列表(用空格键分隔)
FILENAME    当前文件名
FNR    各文件分别计数的行号
FS    字段分隔符(默认是任何空格)
IGNORECASE    如果为真，则进行忽略大小写的匹配
NF    一条记录的字段的数目
NR    已经读出的记录数，就是行号，从 1 开始
OFMT    数字的输出格式(默认值是%.6g)
OFS    输出字段分隔符，默认值与输入字段分隔符一致。ORS 输出记录分隔符(默认值是一个换行符)
RLENGTH    由 match 函数所匹配的字符串的长度
RS    记录分隔符(默认是一个换行符)
RSTART    由 match 函数所匹配的字符串的第一个位置 SUBSEP 数组下标分隔符(默认值是/034)

(1)统计 passwd 文件名，每行的行号，每行的列数
[admin@ datas]$ awk -F ':' '{printf ("文件名:%s,第%d 行有%d 列 \n",FILENAME,NR,NF)}' passwd
(2)切割 IP(awk 有去空格)
[admin@ datas]$ ifconfig | grep "inet" | head -n 1 | awk '{print $2}'
(3)查询一个文件中所有空行所在的行号 数据准备
[admin@ datas]$ vim space.txt
[admin@ datas]$ awk '/^$/ {print NR}' space.txt
(4)统计单词数
[admin@mc datas]$ vim wordcount 
hello world hello world
hello hadoop spark hive hadoop 
hive 李四
使用 awk 统计查询 wordcount
[admin@ datas]$ awk '{for(i=1;i<=NF;i++){arr[$i]++}} END{for(i in arr){print i,arr[i]}}' wordcount

注意:
我们这里使用了 for 和 if，在命令行执行 awk 命令时，for 和 if 这些的写法基本上就与 java 很相似了。
awk 中不用特意声明变量，第一次使用变量的地方就相当于声明。
我们使用了数组，awk 中的数组除了数字做索引之外，也可以使用字符串做索引，我们这里就是使用的字符串做索引(这样就相当于 java 中的 map 集合了)，数组元素如果是 null 也可以直接使用++计算。

awk脚本

awk 脚本中是要执行的 awk 逻辑，脚本以后缀为.awk，脚本开头是#!/bin/awk -f。

awk 脚本执行是 awk -f 脚本查询的目标文件

使用 awkdemo.awk 脚本查询 words 文件 
[admin@ datas]$ awk -f awkdemo.awk words

之前使用 awk 命令行统计查询 wordcount
[admin@ datas]$ awk '{for(i=1;i<=NF;i++){arr[$i]++}} END{for(i in arr){print i,arr[i]}}' wordcount
把这个改成 awk 脚本执行
[admin@ datas]$ vim count.awk 
#!/bin/awk -f
#遍历文件前
#BEGIN{
# 如果遍历前有逻辑，就在这里写 
#}
#遍历文件每一行时的逻辑 
{
    for(i=1;i<=NF;i++){ 
    arr[$i]++
    } 
}
#遍历文件后 
END{
#如果遍历后有逻辑，在这里写 
#我这里是输出汇总结果
    for(i in arr){ 
        print i,arr[i]
    }
}
执行这个脚本，统计 wordcount 文件的单词 
[admin@ datas]$ awk -f count.awk wordcount

awk 内置函数

算数函数

atan2( y, x )   返回 y/x 的反正切。
cos( x )    返回 x 的余弦;x 是弧度。
exp( x )    返回 x 幂函数。
log( x )    返回 x 的自然对数。
sqrt( x )    返回 x 平方根。
int( x )    返回 x 的截断至整数的值。
rand( )   返回任意数字 n，其中 0 <= n < 1。
srand( [Expr] )   将 rand 函数的种子值设置为 Expr 参数的值，或如果省略 Expr 参数则使用某天的时间。返回先前的种子值。srand()括号内没有表达式的话，它会采用当前时间作为随机计数器的种子，这样以秒为间隔，rand()随机数就能滚动随机生成了

生成 3 次 10 以内的随机数

[admin@ datas]$ vim demo.awk 
#!/bin/awk -f
BEGIN{
    srand() 
    for(i=0;i<3;i++){
        print int(rand()*10) 
    }
}

字符串函数

sub( Ere, Repl, [ In ] )

字符串替换，只替换第一次匹配的
参数 1:被替换的字符串(具体的值或正则)
参数 2:替换的新的字符串
参数 3:被替换的字符串所属的变量(不填默认是 awk 的$0)

gsub( Ere, Repl, [ In ] )

替换所有匹配的字符串
参数含义与sub相同

index( String1, String2 )

返回参数 2 作为参数 1 子串出现在参数 1 的哪个索引位置，从 1 开始。如果参数 2 不是参数 1 的子串，则返回 0。

length [(String)]

返回 String 参数指定的字符串的长度(字符形式)。如果未给出 String 参数，则返回整个记录的长度($0 记录变量)。

blength [(String)]

返回 String 参数指定的字符串的长度(以字节为单位)。如果未给出 String 参数，则返回整个记录的长度($0 记录变量)。

substr( String, M, [N])

字符串截取
参数 1:被截取的字符串
参数 2:截取的子串开始位置索引值，从 1 开始
参数 3:截取的子串的结束位置索引值，不填就是截取到结尾返回值:截取的字符串，从 M 到 N 位置，不包括 N

match( String, Ere )

在 String 参数指定的字符串(Ere 参数指定的扩展正则表达式出现在其中)中返回位置(字符形式)，从 1 开始编号，如果 Ere 不存在，则返回 0(零)。

split( String, A, [Ere] )

分割为数组
参数 1:被分割的字符串
参数 2:接收分隔的字符串数组
参数 3:分隔的字符(固定值或者正则)

tolower( String )

返回 String 参数指定的字符串，字符串中每个大写字符将更改为小写。大写和小写的映射由当前语言环境的 LC_CTYPE 范畴定义。

toupper( String )

返回 String 参数指定的字符串，字符串中每个小写字符将更改为大写。大写和小写的映射由当前语言环境的 LC_CTYPE 范畴定义。

sprintf(Format, Expr, Expr, . . . )

根据 Format 参数指定的 printf 子例程格式字符串来格式化 Expr 参数指定的表达式并返回最后生成的字符串。

(1)substr 字符串截取 [admin@mc datas]$ vim words 
hello world !!
hadoop spark hive
张三 李四 王五
截取输出 words 每一行的第 1 列的前 2 个字符
[admin@ datas]$ awk '{print substr($1,1,2)}' words

awk 做大数据查询的简单应用

[admin@ datas]$ vim grade.txt 
#学号 科目 成绩
1 语文 90
1 数学 40
1 英语 59
2 语文 95
2 数学 80
2 英语 52
3 语文 89
4 数学 29
(1)使用 awk 命令行，根据学号汇总查询每个学生的总成绩
[admin@ datas]$ cat grade.txt | grep -v "#" | awk '{arr[$1]+=$3} END{for(i in arr){printf("学号为%d 的学生的成绩是:%d\n",i,arr[i])}}'
(2)使用 awk 脚本，根据学号查询学生的总成绩，学号参数由外部输入，可以同时查询 多个学号
可以使用 awk -f xxx.awk -v 参数名=参数值 参数名=参数值 查询的目标文件这样的方式 给 awk 脚本传参

[admin@ datas]$ vim grade-no.awk
#!/bin/awk -f
{ arr[$1]+=$3
}
END{
#接收参数名为 no 的外部参数，参数 no 的值是学号，可以多个
#多个值时用英文逗号分隔
#使用 split 函数切割 no 的字符串，分隔符是英文逗号， 
#用变量 nos 接收切割后的数组
split(no,nos,",")
for(i in nos){
    cno=nos[i]
    printf("学号为%d 的学生的成绩是:%d\n",cno,arr[cno])
    }
}
执行 awk 脚本，查询学号为 2 和 4 的学生的总成绩
[admin@ datas]$ awk -f grade-no.awk -v no="2,4" grade.txt