linux awk统计文本单词,shell统计文本中单词的出现次数

最新推荐文章于 2022-03-16 21:31:02 发布

路怜涯

最新推荐文章于 2022-03-16 21:31:02 发布

阅读量1.3k

点赞数

文章标签： linux awk统计文本单词

本文介绍了如何在Ubuntu14.04上利用grep和awk脚本来统计文本中单词的出现次数。提供两种解决方案，第一种是结合grep的-E和-o选项与awk进行统计，第二种是通过awk的字段分隔符直接处理，再结合sort和uniq进行计数和排序。文章还解释了相关参数和正则表达式的工作原理。

摘要由CSDN通过智能技术生成

Ubuntu14.04

给定一个文本，统计其中单词出现的次数

# solution 1

grep与awk配合使用，写成一个sh脚本 fre.sh

sh fre.sh wordfretest.txt

#! /bin/bash# solution 1

if [ $# -eq 0 ]

then

echo "Usage:$0 args error"

exit 0

if [ $# -ge 2 ]

then

echo "analyse the first file $1"

#get the first file

filename=$1

grep -E -o "\b[[:alpha:]]+\b" $filename | awk ‘ { count[$0]++ }

END{printf("%-20s%s\n","Word","Count");

for(word in count)

{printf("%-20s%s\n",word,count[word])}

}‘

###########################

先判断输入是否正确，如果输入大于1个文件，用第一个文件

用grep把单词提取出来，用awk来统计这些单词；最后打印出来

###########################

补充说明：

参数说明：

-eq:等于

-ne:不

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

路怜涯

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

通过awk对文本文件的单词出现次数进行排序

四八殇

05-14

1676

test.awk ：完成统计文件中相同单词出现的次数,打印出现次数最多的单词和该单词出现的次数

Linux 命令实现单词计数功能

philonyun的博客

03-21

3929

hadoop 的 mapreduce 有个入门的程序叫wordcount，相当于其它程序语言的helloworld，是用来统计输入文本中用指定分隔符切割后得到的每个单词的出现次数。现在来说明在Linux中如何实现这一功能 1. 获取文件每一行的每个单词这里用awk命令来实现 awk -F(指定分隔符，默认空格或Tab) '{ for(i=1;i 2. 将获得的每个单词进

参与评论您还未登录，请先登录后发表或查看评论

awk统计文件中某关键词出现次数的命令

09-15

awk统计文件中某关键词出现的次数，供朋友们学习参考

awk 统计词

keny-大成的博客

03-16

395

写一个 bash 脚本以统计一个文本文件words.txt中每个单词出现的频率。为了简单起见，你可以假设： words.txt只包括小写字母和' '。每个单词只由小写字母组成。单词间由一个或多个空格字符分隔。示例: 假设 words.txt 内容如下： the day is sunny the the the sunny is is 你的脚本应当输出（以词频降序排列）： the 4 is 3 sunny 2 day 1 综合使用的 shell 命令 shell cat wor...

词频统计(awk)

qq_31198675的博客

05-11

662

写一个 bash 脚本以统计一个文本文件 words.txt 中每个单词出现的频率。为了简单起见，你可以假设： words.txt只包括小写字母和 ' ' 。每个单词只由小写字母组成。单词间由一个或多个空格字符分隔。你也可以假设每行前后没有多余的空格字符。示例：假设words.txt有如下内容： the day is sunny the the the sunny is is 你的脚本应该输出（以词频降序排列）: the 4 is 3 sunny 2 day 1 说明：不要担心词频相同的单词.

awk sort uniq

weixin_33841722的博客

03-24

296

命令：grep -ri '23/Mar/2017' access.log | awk -F"|" '{print $2}' | sort -r |uniq -c | sort -k1,1nr统计log中各ip访问的次数grep -ri '23/Mar/2017' access.log | awk -F"|" '{print $2}' | sort |uniq |wc ...

Shell中统计字符串中单词的个数的几种方法

09-15

在Shell脚本编程中，有时候我们需要统计一个字符串中包含的单词个数。本文将介绍五种不同的方法来实现这一功能，这些方法适用于bash以及其他POSIX兼容的Shell。 ### 方法一：使用`wc`命令 `wc`是"word count"的...

shell 统计一个词出现的概率_【shell脚本实例】shell脚本统计单词频率、出现次数最多的n个单词...

weixin_39842237的博客

12-21

1158

1. 统计的对象words.txt，每个单词占一行(从简考虑了~)zjd@ubuntu:~/test$ cat word.txtusedthiscountmysqlcountthisusedmysqllinuxthisredisappleandroidredisapple2. 统计每个单词的频率方法1：zjd@ubuntu:~/test$ cat word.txt |awk '{a[$0]++}E...

linux统计单词程序,linux统计单词数

weixin_35275781的博客

05-04

767

sort +awk+uniq 统计文件中出现次数最多的前10个单词实例cat logt.log|sort -s -t '-' -k1n |awk '{print $1;}'|uniq -c|sort -k1nr|head -100.csharpcode, .csharpcode pre{font-size: small;color: black;font-family: consolas, "Co...

linux中将文本中的单词换掉的指令_干货：Linux常用命令全称及讲解

weixin_39683025的博客

11-22

1626

从事IT行业的很多人都会使用Linux常用命令，但是知道这些常用命令全称的人并不多，让我们来看看这些常用命令对应的全称吧！小编精心整理了一下，毕竟常用命令比较多，如果没有你常用的还望海涵，可以评论区补充~文章较长，请耐心阅读，这篇文章比较实用，喜欢的朋友欢迎点赞、收藏、转发噢- - - - - - - - - - - - - -ar命令 – 建立或修改备存文件a...

来个AWK的统计单词命令(绝对的强大)

weixin_33694172的博客

03-14

782

[xiaomo@Arch-XIAOMO shell]$ cat awkfile a b c d b d l oj a b v l i ww v l w e r v la w v e a f a w[xiaomo@Arch-XIAOMO shell]$ awk '{for(i=1;i<=NF;i++)a[$i]++}END{for(i in a)print i,a[i]}...

linux awk统计文本单词,Shell脚本-awk统计单词数

weixin_32565397的博客

05-12

338

统计passwd文件每个单词出现的次数，这里以前5行为例[root@web01 ~]# head -5 /etc/passwdroot:x:0:0:root:/root:/bin/bashbin:x:1:1:bin:/bin:/sbin/nologindaemon:x:2:2:daemon:/sbin:/sbin/nologinadm:x:3:4:adm:/var/adm:/sbin/nologi...

linux统计文件单词数,利用awk计算文件的单词数量及排序

weixin_39517241的博客

04-28

434

[root@oldboy awk]# awk 'BEGIN{RS="(:|\n)"} {print $0}' /etc/passwd |sort|uniq -c|sort -r26 x20 /sbin/nologin6 064 /sbin4 /3 /bin/bash2 uucp2 sync2 shutdown2 root2 operator2 mail2 lp2 halt2 gopher2 gam...

awk实现统计单词和去重

weixin_33774883的博客

05-16

449

2019独角兽企业重金招聘Python工程师标准>>> ...

awk以列为关键词统计出现次数

u013275434的专栏

12-30

1720

awk '{s[$1] +=1} END{for(i in s)print i,"\t",s[i]}'

10025---sort +awk+uniq 统计文件中出现次数最多的前10个单词

xxxcyzyy的博客

06-28

1022

原文使用linux命令或者shell实现：文件words存放英文单词，格式为每行一个英文单词（单词可以重复），统计这个文件中出现次数最多的前10个单词。 cat words.txt | sort | uniq -c | sort -k1,1nr | head -10主要考察对sort、uniq命令的使用，相关解释如下，命令及参数的详细说明请自行通过man查看，简单介绍下以上 sort:

awk词频统计

weixin_30786657的博客

01-18

446

2018-01-03@中关村有文本 a.log 如下，请做词频统计，统计出每个单词出现的频率并倒序排序。 The Zen of Python, by Tim Peters Beautiful is better than ugly. Explicit is better than implicit. Simple is better than complex. Comp...

统计/etc/passwd 中 root 出现的次数

weixin_44799645的博客

04-10

1174

统计/etc/passwd 中 root 出现的次数 #!/bin/bash #每读取一行文件内容，即从第 1 列循环到最后 1 列，依次判断是否包含 root 关键词，如果包含则 x++ awk -F: '{i=1;while(i<=NF){if($i~/root/){x++};i++}} END{print "root 出现次数为"x}' /etc/passwd ...