Linux Shell编程实战---统计特定文件中单词的词频

最新推荐文章于 2022-12-20 15:26:29 发布

weixin_34378969

最新推荐文章于 2022-12-20 15:26:29 发布

阅读量555

点赞数

文章标签： shell 操作系统 awk

原文链接：http://blog.51cto.com/weixiaoxin/1963641

版权

方法1：使用sed

Shell>cat a1.txt

123a123,555

456.333

566。555!88,thisis a good boy.

2 555

1 this

1 is

1 good

1 boy

1 a123

1 a

1 88

1 566

1 456

1 333

1 123

Shell>

sed 's/[[:space:]|[:punct:]]/\n/g'

[]表示正则表达式集合，[:space:]代表空格。[:punct:]代表标点符号。

[[:space:]|[:punct:]]代表匹配空格或者标点

s/[[:space:]|[:punct:]]/\n/g代表把空格或标点替换成\n换行符

sed '/^$/d' 删除掉空行

方法2：使用awk

#!/bin/bash

filename=$1

cat$filename|awk '{

#getline var;

split($0,a,/[[:space:]|[:punct:]]/);

for(i in a) {

word=a[i];

b[word]++;

}

END{

printf("%-14s%s\n","Word","Count");

for(i in b) {

printf("%-14s%d\n",i,b[i])|"sort-r -n -k2";

}

运行结果

[root@Test01awk]# cat a1.txt

123a123,555

456.333

566。555!88,thisis a good boy.

[root@Test01awk]# ./word_freq.sh a1.txt

Word Count

555 2

this 1

is 1

good 1

boy 1

a123 1

a 1

88 1

566 1

456 1

333 1

123 1

[root@Test01awk]#

方法3：使用tr

[root@Test01awk]# cat a1.txt

123a123,555

456.333

566i555!88,this is a good boy.

2 555

1 this

1 is

1 good

1 boy

1 a123

1 a

1 88

1 566i

1 456

1 333

1 123

[root@Test01awk]#

转载于:https://blog.51cto.com/weixiaoxin/1963641

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_34378969

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

一行shell实现统计单词词频

happyAnger6的专栏

02-17

583

写一个 bash 脚本以统计一个文本文件words.txt中每个单词出现的频率。为了简单起见，你可以假设： words.txt只包括小写字母和' '。每个单词只由小写字母组成。单词间由一个或多个空格字符分隔。示例: 假设 words.txt 内容如下： the day is sunny the the the sunny is is 你的脚本应当输出（以词频降序排列）： ...

MapReduce编程实例-----词频统计（浅记）

gklive的博客

03-27

8042

实验目的： Windows系统下，通过MapReduce实现次词频统计 MapReduce编程实例-----词频统计 1)·首先，MapReduce通过默认组件TextInputFormat将待处理的数据文件(如ext1.txt和text2.txt)，把每一行的数据都转变为<key,value>键值对； 2)·其次，调用Map()方法，将单词进行切割并进行计数，输出键值对作为Reducer阶段的输入键值对 3)·最后，调用Reduce()方法将单词汇总、排序后，通过...

参与评论您还未登录，请先登录后发表或查看评论

shell统计词频

never__ends的博客

11-27

393

leetcode上面的题。写一个 bash 脚本以统计一个文本文件 words.txt 中每个单词出现的频率。为了简单起见，你可以假设： words.txt只包括小写字母和 ' ' 。每个单词只由小写字母组成。单词间由一个或多个空格字符分隔。示例: 假设 words.txt 内容如下： the day is sunny the the the sunny is is 你的脚本应当输...

Shell编程：统计一个文件中的词频

Raindropcds的博客

08-07

1145

写一个 bash 脚本以统计一个文本文件 words.txt 中每个单词出现的频率。为了简单起见，你可以假设： words.txt只包括小写字母和 ’ ’ 。每个单词只由小写字母组成。单词间由一个或多个空格字符分隔。示例: 假设 words.txt 内容如下： the day is sunny the the the sunny is is 你的脚本应当输出（以词频降序排列）： the 4 is 3 sunny 2 day 1 说明: 不要担心词频相同的单词的排序问题，每个单词出现的频率都是唯一

Linux操作系统实验 | 第二章 | 实验三多线程实现单词统计工具

weixin_53249168的博客

12-20

928

允许线程使用互斥锁来修改临界资源，确保线程间的同步与协作。如果两个线程需要安全地共享一个公共计数器，需要把公共计数器加锁。线程需要访问称为互斥锁的变量，它可以使线程间很好地合作，避免对于资源的访问冲突。区分单词原则:凡是一个非字母或数字的字符跟在字母或数字的后面，那么这个字母或数字就是单词的结尾。4.创建两个含英文单词的txt文件。多线程实现单词统计工具。输出结果如下图所示。

linux 统计特定文件中的词频

weixin_34281477的博客

07-08

800

#!/bin/bash 文件名:word_freq.sh 用途: 计算文件中单词的词频 if [ $# -ne 1 ]; then echo "Usage: $0 filename"; exit -1 fifilename=$1egrep -o "\b[[:alpha:]]+\b" $filename | \awk '{ count[$0]++ }END{ printf("%-14s%s\n"...

linux bash shell 统计一个文本中单词频率的脚本详解

weixin_30764771的博客

08-14

310

人工智能-项目实践-信息检索-基于不同策略的英文单词的词频统计和检索系统

03-02

在本项目实践中，我们聚焦于“人工智能”领域中的一个核心应用——信息检索，具体实现了一个基于不同策略的英文单词词频统计与检索系统。这个系统旨在高效地处理文本数据，通过对英文单词进行词频统计，进而支持快速...

《Python文本挖掘实战：词频统计高效教程》-计算机科学·Python编程·文本分析·数据预处理

最新发布

05-03

- **词频统计**：是文本挖掘中最基本也是最重要的任务之一，通过计算文本中各单词出现的频率来分析文本的主要内容和特点。 #### 二、Python基础知识与词频统计相关模块介绍 - **Python**：一种广泛应用于数据科学...

商业编程-源码-仿雷傲文本统计系统(yucount) v1.0.zip

06-23

2. **算法设计**：在统计过程中，可能会使用到各种算法，如哈希表用于快速查找和计数，TF-IDF（词频-逆文档频率）算法用于评估单词的重要性，以及N-gram模型来捕获词语之间的上下文关系。 3. **数据结构**：为了...

C语言实现英文文本词频统计

08-19

主要为大家详细介绍了C语言实现英文文本词频统计，文中示例代码介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们可以参考一下

多线程统计多个文件的单词数目

04-08

这个文件包含三个文件夹，有自己写的两个版本以及一个网上的版本，操作步骤详尽，注释清晰

linux GTK+单词统计程序课程设计

06-16

包括源代码课程设计报告可执行文件该程序由个人完成，希望多多支持，下载后评个分，注意，评价时要大上星号你才能得到评价分哦，这好似是CSDN今年才有这个规则的。要求如下：一：题目：基于GTK+的单词数值计算器要求： 1、按照规则计算单词的值，如果A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 26个字母（全部用大写）的值分别为 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 ，如 WINJACK这个单词的值就为W+I+N+J+A+C+K=23+9+14+10+1+3+11=71% HARDWORK= H+A+R+D+W+O+R+K = 8+1+18+4+23+15+18+11 = 98% KNOWLEDGE=K+N+O+W+L+E+D+G+E = 11+14+15+23+12+5+4+7+5 = 96% LOVE=L+O+V+E=12+15+22+5=54% LUCK=L+U+C+K = 12+21+3+11 = 47% ATTITUDE=A+T+T+I+T+U+D+E = 1+20+20+9+20+21+4+5 = 100% 2、程序的界面布局参考如下图，在第一个单行文本框输入一单词，点击“计算”按钮，按照以上算法计算出该单词的值。

hadoop使用mapreduce统计词频_MapReduce编程实战（1）--实现wordcount词频统计

weixin_30600605的博客

01-17

1456

摘要：一个WordCount单词统计程序为实例，详细演示了如何编写MapReduce程序代码以及如何打包运行程序。参考资料：1.创建maven项目创建maven项目，项目名hdfs ##这里我用的文章“java操作hdfs”的项目hdfspom.xml文件： //与文章“java操作hdfs”的项目一样。2.编写WordCount类在该项目包com.scitc.hdfs中新...

写一个 bash 脚本以统计一个文本文件 words.txt 中每个单词出现的频率。

流风雨情的博客

04-24

1752

leetcode 192 https://leetcode-cn.com/problems/word-frequency/ 为了简单起见，你可以假设： words.txt只包括小写字母和 ' ' 。每个单词只由小写字母组成。单词间由一个或多个空格字符分隔。示例: 假设 words.txt 内容如下： the day is sunny the the the sunny is is 你的脚本应当输出（以词频降序排列）： the 4 is 3 sunny 2 day 1 说明: 不要担心词频相同

Linux实验全纪录之多线程实现单词统计工具

coin06的博客

05-13

4132

#include <stdio.h> #include <pthread.h> #include <ctype.h> #include <stdlib.h> pthread_mutex_t counter_clock=PTHREAD_MUTEX_INITIALIZER; int main(int ac,char *av[]) { void ...

操作系统 Linux多线程单词统计

qq_45852341的博客

10-31

1016

设计任务从网上下载一些英文小说，用多线程实现单词总数的统计。统计单词出现频率并从中找出Top10热词。用单线程实现以上功能，并比较单线程和多线程的时间效率。 #include <stdio.h> #include <stdlib.h> #include <pthread.h> #include <unistd.h> #include <semaphore.h> #include <string.h> #include <ve

linux多线程实现单词统计,统计单词数 - MapReduce经典案例分享_Linux编程_Linux公社-Linux系统门户网站...

weixin_35728089的博客

05-13

378

资源文件file.txthello wordthis is my first hadoop program分析：一个文档中每行的单词通过空格分割后获取，经过map阶段可以将所有的单词整理成如下形式：key:hello value:1key:hadoop value:1key:hello value:1key:word value:1key:this value:1key:is value:1key...

MapReduce编程案例--词频统计

03-14

MapReduce编程案例中的词频统计是一种常见的数据处理方法，它可以用于处理大规模的文本数据，例如在搜索引擎中对搜索结果进行排序。该方法通过将文本数据分割成小块，然后对每个小块进行词频统计，最后将所有小块的...