1、
文本形式:
Label \t XXXXXXX
a. 通过 awk 进行分隔,获得Label
awk -F '\t' '{print $1;}' corpus.txt >> awk_log.txt
b. 编写 ak.awk
#!/bin/awk -f
# 开始
BEGIN{
}
# 运行中
{
for(i=1;i<=NF;i++){
wordName[$i]=$i;
wordCount[$i]++;
}
}
# 结束
END{
for(j in wordName) {
print j"\t"wordCount[j];
}
}
c.编写 akBash.sh
#!/bin/bash
file=$1
awk -f ak.awk $file
d.执行 sh akBash.sh awk_log.txt
10 11219
11 11253
12 7454
20 3739
13 2056
21 2540
14 5152
22 8607
15 3740
23 6661
16 9245
30 1261
31 6683
17 6654
24 907
18 11159
32 3816
25 7453
26 2656
33 7488
19 1595
40 3720
27 7486
34 10416
41 6963
35 11174
42 7492
28 7492
36 7386
43 11116
29 5084
37 7493
44 7492
38 7501
39 3749
0 9394
1 11251
2 11234
3 11246
4 5782
5 6432
6 13645
7 11118
8 321
9 9026