bash词频统计 leetcode192. Word Frequency

最新推荐文章于 2024-08-11 09:00:00 发布

遥不可及梦

最新推荐文章于 2024-08-11 09:00:00 发布

阅读量1.7k

点赞数

分类专栏： shell 词频统计 awk sort

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013246898/article/details/80240024

版权

shell 同时被 3 个专栏收录

12 篇文章 0 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

words.txt.用空格分开，统计词频，根据词频排序，从大到小。

awk '{for(i=1;i<=NF;++i){++m[$i]}}END{for(k in m){print k, m[k}}' words.txt | sort -nr -k 2

复习一下awk的语法。不用容易忘。
awk 是逐行检索文本。分为3的部分。
BEGIN{#这里进行一些检索文本前的初始化操作}
{#这里是对应每一行的操作}。例如这里 for(i=1;i<=NF;++i){++m[$i]}就是将每一行分隔的字段，进行词频统计。
NF是分隔的字段数。
$0表示整行字符串
$1到$NF表示从分隔的第一个字符串到最后一个字符串
awk中的数组可以用作hashtable做来词频统计。
END{#在检索文本后的操作}
for(k in m) k表示的就是m的key。
sort语法复习
sort -n 将字符串转数字
sort -r 指定顺序为从大到小
sort -k 2 指定第二个字段作为排序判断标准

cat words.txt | tr -s ' ' '\n' | sort | uniq -c | sort -rn | awk '{print $2, $1}'

tr -s ' ' '\n' 是将所有连续的空格空行删除并保证每一行只有一个字符串
sort | uniq -c 通常一起用来统计重复出现的次数。

遥不可及梦

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

遥不可及梦 CSDN认证博客专家 CSDN认证企业博客

码龄11年

160: 原创

4万+: 周排名

192万+: 总排名

45万+: 访问

: 等级

5213: 积分

47: 粉丝

52: 获赞

35: 评论

159: 收藏

私信

关注

热门文章

分类专栏

最新评论

codeblocks安装boost库
清欢儒: 你好请问cd是什么呀？
codeblocks安装boost库
富贵有话说: 你好，bootstrap.bat哪里没有.bat这个后缀，但是这个文件的图标和这个.bat一样的，双击这个bootstrap文件没什么反应黑框一闪而过，这个是什么原因呀，求指教
只用2GB的内存找出20亿个整数中找到出现次数最多的数
缝菜洋: 我认为16个小文件是因为hash表大小的个数，也就是一个hash函数均匀的将20亿个32位整数映射到16个小文件中，一般hash表的个数取2的整数幂
为什么表数据删除一半，表文件大小不变？读后总结
fj3704: alter table t engine = InnoDB 我执行这个空间还是没变化，我明明删除了一万多篇文章的，请问啥原因啊
Redis有哪些慢操作
Datrilla: 还没有详细看过源码这篇基于我们理解源码的方式介绍有助于源码了解学习有助于扩宽编程思路

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。