使用shell实现简单的词频统计

最新推荐文章于 2023-04-19 23:01:23 发布

weixin_33753003

最新推荐文章于 2023-04-19 23:01:23 发布

阅读量246

点赞数

文章标签： json awk shell

原文链接：http://www.cnblogs.com/yanghuabin/p/8980257.html

版权

需求：

统计如下中第二列单词出现的次数：

1,huabingood,100
2,haha,200
3,huabingood,300
4,haha,100
5,haha,200

具体代码：

cat a.txt | awk -F "," '{print $2}' | sort | uniq -c | sort -nrk 1

代码解释：

awk -F "," '{print $2}'    # 将数据按照逗号进行分割，并取出第二列的内容

sort　　# 将取出的内容进行排序。因为uniq统计时，如果重复的数据不连续，就会被认为时两个不同内容的行

uniq -c　　# 统计重复行出现的次数

sort -nrk 1　　# 按照第一列重复的次数，按照数字顺序进行降序排列

转载于:https://www.cnblogs.com/yanghuabin/p/8980257.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_33753003

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

项目一：利用Spark RDD实现词频统计

howard2005的专栏

06-14

1903

经典案例 - 词频统计（本地运行，打包上传到集群上运行）

hadoop使用mapreduce统计词频_MapReduce编程实战（1）--实现wordcount词频统计

weixin_30600605的博客

01-17

1441

摘要：一个WordCount单词统计程序为实例，详细演示了如何编写MapReduce程序代码以及如何打包运行程序。参考资料：1.创建maven项目创建maven项目，项目名hdfs ##这里我用的文章“java操作hdfs”的项目hdfspom.xml文件： //与文章“java操作hdfs”的项目一样。2.编写WordCount类在该项目包com.scitc.hdfs中新...

参与评论您还未登录，请先登录后发表或查看评论

SHELL篇统计词频

syztoo

01-20

603

题目：写一个 bash 脚本以统计一个文本文件 words.txt 中每个单词出现的频率。为了简单起见，你可以假设： words.txt只包括小写字母和 ' ' 。每个单词只由小写字母组成。单词间由一个或多个空格字符分隔。示例：假设 words.txt 内容如下： the day is sunny the the the sunny is is ...

shell之词频统计

weixin_34080571的博客

11-20

455

写一个 bash 脚本以统计一个文本文件 words.txt 中每个单词出现的频率。为了简单起见，你可以假设：words.txt只包括小写字母和 ' ' 。每个单词只由小写字母组成。单词间由一个或多个空格字符分隔。示例:假设 words.txt 内容如下：the day is sunny the the thethe sunny is is你的脚本应当输出（以词频降序排列）：the 4is 3su...

统计词频(Shell)

perception952的博客

05-14

196

写一个 bash 脚本以统计一个文本文件words.txt中每个单词出现的频率。为了简单起见，你可以假设： words.txt只包括小写字母和' '。每个单词只由小写字母组成。单词间由一个或多个空格字符分隔。示例: 假设 words.txt 内容如下： the day is sunny the the the sunny is is 你的脚本应当输出（以词频降序排列）： the 4 is 3 sunny 2 day 1 cat word.txt | xargs -n 1 | ...

leetcode--shell练习之词频统计

feichong621的博客

01-13

164

题目写一个 bash 脚本以统计一个文本文件 words.txt 中每个单词出现的频率。为了简单起见，你可以假设： words.txt只包括小写字母和 ’ ’ 。每个单词只由小写字母组成。单词间由一个或多个空格字符分隔。示例: 假设 words.txt 内容如下： the day is sunny the the the sunny is is 你的脚本应当输出（以词频降序排列）： the 4 is 3 sunny 2 day 1 说明: 不要担心词频相同的单词的排序问题，每个单词出现的频率都是唯

词频统计-shell版

python -学习笔记

03-24

294

题目来源：leecode 需求：写一个 bash 脚本以统计一个文本文件 words.txt 中每个单词出现的频率。为了简单起见，你可以假设： words.txt只包括小写字母和 ’ ’ 。每个单词只由小写字母组成。单词间由一个或多个空格字符分隔。示例: 假设 words.txt 内容如下： the day is sunny the the the sunny is is 脚本应当以词频...

【hadoop学习之路】Spark-shell RDD 实现词频统计

onion23的博客

06-11

3417

1. 在本地路径下创建文本文件 /test/words.txt，内容如下： python java cpp c hello world hadoop hdfs python java cpp c hello world hadoop hdfs python java cpp c hello world hadoop hdfs python java cpp c hello world hadoop hdfs python java cpp c hello world hadoop hdfs py

启动Spark-Shell实现词频统计

qq_53325156的博客

04-19

1574

启动Spark-Shell实现词频统计

大数据技术实践——Spark词频统计

08-23

3. **编写SparkWordCount**：使用Scala在IDEA中编写Spark程序，实现词频统计功能。 4. **执行与分析**：在spark-shell中运行程序，观察执行过程，理解Spark如何处理数据。 **五、数据集说明** 本实践使用的数据集是...

Shell例题-192. 统计词频

wnccmyr的博客

10-26

347

写一个 bash 脚本以统计一个文本文件 words.txt 中每个单词出现的频率。假设： words.txt只包括小写字母和 ' ' 。每个单词只由小写字母组成。单词间由一个或多个空格字符分隔。示例: 假设 words.txt 内容如下： the day is sunny the the the sunny is is 你的脚本应当输出（以词频降序排列）： the 4 is 3 sunny 2 day 1 说明: 不要担心词频相同的单词的排序问题，每个单词出现的频率..

shell脚本

weixin_42414659的博客

08-06

157

写一个 bash 脚本以统计一个文本文件 words.txt 中每个单词出现的频率。为了简单起见，你可以假设： words.txt只包括小写字母和 ’ ’ 。每个单词只由小写字母组成。单词间由一个或多个空格字符分隔。示例: 假设 words.txt 内容如下： the day is sunny the the the sunny is is 你的脚本应当输出（以词频降序排列）： the 4 is 3 sunny 2 day 1 来源：力扣（LeetCode）链接：https://leetcode-

shell统计词频

大鸡腿的博客

08-31

1892

cat words.txt | cut -d ' ' -f1 | sort | uniq -c | sort -k 1 | awk '{print $2,$1}' 一个文本里面词语通过’ ‘，空格隔开 uniq -c 统计重复的个数 awk '{print $2,$1}' 调换参数的位置这个适合小数据量的查询，不适合大数据的统计...

linux命令实现词频统计

热门推荐

ASIN的专栏

03-10

1万+

问题给定示例文件test.txt如下，对第一列做词频统计并排序。hello marry max thread hello lihua max apple max code nasa connection 解答切割并分组并排序，cat test.txt | cut -d ' ' -f1 | sort | uniq -c | sort -k 1 1 nasa 2 hello

Shell编程：统计一个文件中的词频

Raindropcds的博客

08-07

1117

写一个 bash 脚本以统计一个文本文件 words.txt 中每个单词出现的频率。为了简单起见，你可以假设： words.txt只包括小写字母和 ’ ’ 。每个单词只由小写字母组成。单词间由一个或多个空格字符分隔。示例: 假设 words.txt 内容如下： the day is sunny the the the sunny is is 你的脚本应当输出（以词频降序排列）： the 4 is 3 sunny 2 day 1 说明: 不要担心词频相同的单词的排序问题，每个单词出现的频率都是唯一

linux shell 下载维基百科特色条目并统计单词词频

archimekai的博客

03-23

2103

linux shell 下载维基百科特色条目并统计单词词频：首先使用wget下载足够的网页，然后awk配合正则表达式提取网页中的单词，最后使用awk进行词频统计并输出。

Hadoop〖一〗Hadoop3.2.1版本本地安装伪集群实现词频统计案例

kingtok的博客

02-29

813

Hadoop〖一〗Hadoop3.2.1版本本地安装伪集群实现词频统计案例一. 安装Hadoop在虚拟机上1.1 准备一台虚拟机1.2 安装JDK1.3 安装Hadoop二. 接下来进行配置伪分布式（上面的Hadoop只是单机模式）2.1 创建文件夹2.2 修改hadoop配置文件2.3 启动Hadoop2.4 访问UI界面三. 实现WordCount案例(词频统计)3.1 词频统计实现3.2 将...

bash词频统计 leetcode192. Word Frequency

辛明辉的专栏

05-08

1727

words.txt.用空格分开，统计词频，根据词频排序，从大到小。 awk '{for(i=1;i<=NF;++i){++m[$i]}}END{for(k in m){print k, m[k}}' words.txt | sort -nr -k 2 复习一下awk的语法。不用容易忘。 awk 是逐行检索文本。分为3的部分。 BEGIN{#这里进行一些检索文本前的初始化操作} ...

shell 词频统计