统计文件出现最多的10个词

原创 2016年08月31日 09:51:16

文件words存放英文单词,格式为每行一个英文单词(单词可以重复),统计这个文件中出现次数最多的前10个单词。

cat <em>filename</em> | sort | unique -c | sort -k1,1nr | head 10

sort: 对单词进行排序
uniq -c: 显示唯一的行,并在每行行首加上本行在文件中出现的次数
sort -k1,1nr: 按照第一个字段,数值排序,且为逆序
head -10: 取前10行数据

语法

sort(选项)(参数)

来自: http://man.linuxde.net/sort

选项 

-n:依照数值的大小排序;

-r:以相反的顺序来排序;

-t<分隔字符>:指定排序时所用的栏位分隔字符; 

+<起始栏位>-<结束栏位>:以指定的栏位来排序,范围由起始栏位到结束栏位的前一栏位。

-b:忽略每行前面开始出的空格字符; 

-c:检查文件是否已经按照顺序排序;

-d:排序时,处理英文字母、数字及空格字符外,忽略其他的字符; 

-f:排序时,将小写字母视为大写字母; 

-i:排序时,除了040至176之间的ASCII字符外,忽略其他的字符; 

-m:将几个排序号的文件进行合并; 

-M:将前面3个字母依照月份的缩写进行排序;  

-o<输出文件>:将排序后的结果存入制定的文件;   

参数 

文件:指定待排序的文件列表。


软件工程第一次作业:java实现分析一个文本文件中各个词出现的频率,并输出频率最高的10个词

软件工程第一次作业
  • u010158673
  • u010158673
  • 2014年10月19日 15:12
  • 1346

统计一篇英文文章中出现次数最多的10个单词

import java.io.BufferedReader; import java.io.File; import java.io.FileReader; import java.io.IOExce...
  • u010512607
  • u010512607
  • 2014年10月12日 00:19
  • 1126

统计文件中出现次数最多的前10个单词

使用linux命令或者shell实现:文件words存放英文单词,格式为每行一个英文单词(单词可以重复),统计这个文件中出现次数最多的前10个单词。 cat words.txt | sort | ...
  • dearwind153
  • dearwind153
  • 2016年08月18日 19:17
  • 1891

用python统计文本里的单词出现次数最多的10个

python入门教程至此已学习完毕,下面是结业脚本:(一部分是书里的源码,一部分是自己加的练习题) #写一个文本统计的脚本:计算并打印有关文本文件的统计数据,包括文件里包含多少个字符、行、单词数,以...
  • dengzi2009
  • dengzi2009
  • 2015年09月05日 22:31
  • 4992

统计文件中出现次数最多的前10个单词

实例 cat logt.log|sort -s -t '-' -k1n |awk '{print $1;}'|uniq -c|sort -k1nr|head -100 统计文件中出现次数最多的...
  • jiaoyun007
  • jiaoyun007
  • 2013年07月05日 09:16
  • 1810

统计文件中出现次数最多的前10个单词

使用linux命令或者shell实现:文件words存放英文单词,格式为每行一个英文单词(单词可以重复),统计这个文件中出现次数最多的前10个单词。 cat words.txt | sort | ...
  • dearwind153
  • dearwind153
  • 2016年08月18日 19:17
  • 1891

统计文件中出现次数最多的前10个单词

cat logt.log|sort -s -t '-' -k1n |awk '{print $1;}'|uniq -c|sort-k1nr|head -100 统计文件中出现次数最多的前10个单词 ...
  • wangwenhao00
  • wangwenhao00
  • 2013年10月05日 17:56
  • 1291

linux中sort(统计文件中出现次数最多的前10个单词)

原文地址:+awk+uniq 统计文件中出现次数最多的前10个单词" style="text-decoration:none; color:rgb(62,115,160)">sort +awk+uni...
  • JackLiu16
  • JackLiu16
  • 2018年01月12日 13:41
  • 124

sort +awk+uniq 统计文件中出现次数最多的前10个单词

实例 cat logt.log|sort -s -t '-' -k1n |awk '{print $1;}'|uniq -c|sort-k1nr|head -100 统计文件中出现次数最多的前10个单...
  • u011627789
  • u011627789
  • 2013年11月11日 15:11
  • 1409

从文件中查找出现次数最多的10个单词

本来想用字典树的,但字典树是空间换时间的,只有26个字母还好,但文件中还有各种标点符号,觉得空间耗费太大了。。。。就用了还算一般的方法。。 十道海量数据处理:http://blog.csdn...
  • Bill_Ming
  • Bill_Ming
  • 2012年11月16日 17:27
  • 3107
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:统计文件出现最多的10个词
举报原因:
原因补充:

(最多只允许输入30个字)