工作中经常需要在文件中随机抽取几行的数据来分析,但是公司的虚拟机不支持连外网,同时没有shuf工具。
但是默认是有awk工具的。
创建一个shell脚本,内容如下:
#!/bin/bash
IN_FILE=$1
LINE_NUM=$2
awk -vN=${LINE_NUM} -vC="`wc -l ${IN_FILE}`" 'BEGIN{srand();while(n<N){i=int(rand()*C+1);if(!(i in a)){a[i]++;n++}}}NR in a' ${IN_FILE}
然后sh my_shuf.sh in_file_name line_num
即可。
如果还需要打印某行的某列,后面管道接上awk就行,美滋滋~
例如:
sh my_shuf.sh datas.txt 100 | awk '{print $1}' > random_data_100