1. 字符串操作
1.1 substr,提取字符串的子串
substr(s, i),返回s从第i个字符到结束的子串
substr(s, i, len),返回s从第i个字符开始长度为len的子串
1.2 length(s),返回字符串长度
1.3 match(s, key),判断s是否包含key,返回值 0/1
1.4 split(s, a, sep),根据分隔符sep将字符串s切分到数组a
2. 引用外部变量
2.1 "'$var'",双引号 + 单引号 + 变量 + 单引号 + 双引号
var中包含空格的情况不适用,需要在最里层多包一层双引号
2.2 '"$var"',单引号 + 双引号 + 变量 + 双引号 + 单引号
同上
2.3 将awk主体的单引号改为双引号,变量使用"$var"
awk "{print "$var"}"
2.4 使用awk的-v选项
awk -v avar=$var '{print avar}'
3. 获取外部输入getline
使用awk实现两个文件去重功能
awk 'BEGIN{
while(getline < "'$dict'" > 0) dict[$1]=1;
}
{
if ($1 in dict) {
}
else {
print $1;
}
}' ${input_file}
4. 打印指定某几列内容
awk '{for (i = l; l <= r; ++l) {printf("%s\t", $i)}}' ,打印从第l列到第r列的内容
5. 排序函数asort, asorti
n = asort(a),返回排序后数组大小n,按照数组元素大小排序,原有的下标会被抹掉重新排列,从1-n
n = asort(a, new_a),返回排序后数组大小n,按照数组下标大小排序,排序结果存储在新数组new_a,原数组a保持不变
6. 替换函数sub、gsub
sub会把第一个匹配的子串进行替换,gsub会把所有匹配的子串进行替换
awk 'sub(/aaa/, "AAA", $3)' input.file,将第三列中的第一个aaa替换成AAA
awk 'sub(/aaa/, "AAA")' input.file,将第一个aaa替换成AAA
7.去除某一项数据
awk '{$3=""; print $0}',去掉第3列