统计文件出现最多的10个词

原创 2016年08月31日 09:51:16

文件words存放英文单词,格式为每行一个英文单词(单词可以重复),统计这个文件中出现次数最多的前10个单词。

cat <em>filename</em> | sort | unique -c | sort -k1,1nr | head 10

sort: 对单词进行排序
uniq -c: 显示唯一的行,并在每行行首加上本行在文件中出现的次数
sort -k1,1nr: 按照第一个字段,数值排序,且为逆序
head -10: 取前10行数据

语法

sort(选项)(参数)

来自: http://man.linuxde.net/sort

选项 

-n:依照数值的大小排序;

-r:以相反的顺序来排序;

-t<分隔字符>:指定排序时所用的栏位分隔字符; 

+<起始栏位>-<结束栏位>:以指定的栏位来排序,范围由起始栏位到结束栏位的前一栏位。

-b:忽略每行前面开始出的空格字符; 

-c:检查文件是否已经按照顺序排序;

-d:排序时,处理英文字母、数字及空格字符外,忽略其他的字符; 

-f:排序时,将小写字母视为大写字母; 

-i:排序时,除了040至176之间的ASCII字符外,忽略其他的字符; 

-m:将几个排序号的文件进行合并; 

-M:将前面3个字母依照月份的缩写进行排序;  

-o<输出文件>:将排序后的结果存入制定的文件;   

参数 

文件:指定待排序的文件列表。


相关文章推荐

统计文件中出现次数最多的前10个单词

cat logt.log|sort -s -t '-' -k1n |awk '{print $1;}'|uniq -c|sort-k1nr|head -100 统计文件中出现次数最多的前10个单词 ...

统计文件中出现次数最多的前10个单词

使用linux命令或者shell实现:文件words存放英文单词,格式为每行一个英文单词(单词可以重复),统计这个文件中出现次数最多的前10个单词。 cat words.txt | sort | ...

从文件中查找出现次数最多的10个单词

本来想用字典树的,但字典树是空间换时间的,只有26个字母还好,但文件中还有各种标点符号,觉得空间耗费太大了。。。。就用了还算一般的方法。。 十道海量数据处理:http://blog....

统计一篇英文文章中出现次数最多的10个单词

import java.io.BufferedReader; import java.io.File; import java.io.FileReader; import java.io.IOExce...

统计文本中单词出现次数,打印出现次数最多的前10个.文本大小30KB~300KB

统计文本中单词出现次数,打印出现次数最多的前10个.文本大小30KB~300KB

NIO MappedByteBuffer读大文件并统计出现次数最多的TOP K个单词

最近学习NIO了解到MappedByteBuffer读取大文件很有优势,遂在网上搜索观看了好几篇博客,但大多数讲的都是理论。对于实战demo很少,或者过于简单,现结合一道常见的面试题:如何读取大文件并...

文件中出现最多的前五个字母

  • 2014年05月25日 00:28
  • 13KB
  • 下载

在100G文件中找出出现次数最多的100个IP

昨天面阿里最后栽在一道很常见的海量数据处理上了,也怪之前没专门花时间准备这个问题。今天参考了July的博客,又反思了下自己面试时错误的思路,重新整理为下面的解答过程。 先上July的博客对类似问题的...

两个小任务:判断闰年,找出文件中出现次数最多的单词

一、       编写函数 isLeapYear(year)   判断一个年份是否为闰年,是闰年返回True,否则返回False   二、  在文件words.txt中,每行有一个单词,请写一段程...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:统计文件出现最多的10个词
举报原因:
原因补充:

(最多只允许输入30个字)