linux 文件内容频率,Linux-Awk：来自一个文本文件的单词频率,如何输出到myFile.txt？...

最新推荐文章于 2021-05-14 01:51:20 发布

梅m

最新推荐文章于 2021-05-14 01:51:20 发布

阅读量74

点赞数

文章标签： awk 文本分析频率统计大型文件命令行工具

给定.txt文件,这些文件之间用空格分隔,例如：

But where is Esope the holly Bastard

But where is

和Awk函数：

cat /pathway/to/your/file.txt | tr ' ' '\n' | sort | uniq -c | awk '{print $2"@"$1}'

我在控制台中得到以下输出：

1 Bastard

1 Esope

1 holly

1 the

2 But

2 is

2 where

如何进入打印到myFile.txt中？

我实际上有300.000行,近200万个单词.最好将结果输出到文件中.

编辑：使用的答案(通过@Sudo_O)：

$awk '{a[$1]++}END{for(k in a)print a[k],k}' RS=" |\n" myfile.txt | sort > myfileout.txt

解决方法:

您的管道效率不是很高,您应该用awk来完成整个工作：

awk '{a[$1]++}END{for(k in a)print a[k],k}' RS=" |\n" file > myfile

如果要按排序顺序输出：

awk '{a[$1]++}END{for(k in a)print a[k],k}' RS=" |\n" file | sort > myfile

管道给出的实际输出为：

$tr ' ' '\n' < file | sort | uniq -c | awk '{print $2"@"$1}'

Bastard@1

But@2

Esope@1

holly@1

is@2

the@1

where@2

注意：在这里使用cat是没有用的,我们只能使用

$tr ' ' '\n' < file | sort | uniq -c

1 Bastard

2 But

1 Esope

1 holly

2 is

1 the

2 where

我们可以再次排序以sed删除前导空格：

$tr ' ' '\n' < file | sort | uniq -c | sort | sed 's/^\s*//'

1 Bastard

1 Esope

1 holly

1 the

2 But

2 is

2 where

但是就像我在一开始提到的那样,让awk处理它：

$awk '{a[$1]++}END{for(k in a)print a[k],k}' RS=" |\n" file | sort

1 Bastard

1 Esope

1 holly

1 the

2 But

2 is

2 where

标签：frequency-analysis,linux,shell,awk,word-frequency

来源： https://codeday.me/bug/20191013/1905844.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

梅m

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

awk使用方法详解

empty_csx的博客

03-17

3319

awk工具 awk 选项 ‘模式或条件{编辑命令}’ 文件1 文件2…. //过滤并输出文件中符合条件的内容 awk -f 脚本文件文件1 文件2… //从脚本中调用的编辑指令，过滤并输出内容 awk包含几个特殊的内建变量（可直接用）如下所示： FS：指定每行文本的字段分隔符，默认为空格或制表位； NF：当前处理的行的字段个数； NR：当前处理的行的行号（序数）； $0：当前处理的行的整行内容； $n：当前处理的行的第n个字段（第n列）； FILENAME：被处理的文件名； RS：数据记录分隔，默认为\n

linux awk提取txt文件中的数字,awk：一个强大的文本分析工具

weixin_42405368的博客

05-15

2239

原标题：awk：一个强大的文本分析工具 awk是流式编辑器，针对文档中的行来操作，一行一行地执行。awk可以非常方便、高效地操作文档以及字符，从而实现我们想要的格式。它的功能非常强大，我在 shell 脚本中经常使用它来处理字符串。下面介绍几个在工作中使用awk较频繁的用法。1. 截取文档中的某个段示例命令如下：# head -n2 test.txt |awk -F ':' '{print $1}...

参与评论您还未登录，请先登录后发表或查看评论

python基础学习day4/下午

qq_39112101的博客

02-21

1034

字典的介绍 a={"name":"尼古拉斯","age":98,"address":"七步沟"} 查找 print(a["name"]) print(a) print(a["age"]) print(a["address"]) #增加 a["sex"] = "保密" #字典中有该值的话就修改，没有的话就增

linux awk for循环,在 awk 中使用循环

weixin_28878621的博客

05-14

9280

来学习一下多次执行同一条命令的不同类型的循环。awk 脚本有三个主要部分：BEGIN 和 END 函数(都可选)，用户自己写的每次要执行的函数。某种程度上，awk 的主体部分就是一个循环，因为函数中的命令对每一条记录都会执行一次。然而，有时你希望对于一条记录执行多次命令，那么你就需要用到循环。有多种类型的循环，分别适合不同的场景。while 循环一个 while 循环检测一个表达式，如果表达式为 ...

linux命令-awk（运维基本功）

龙叔运维的博客

07-02

1891

运维这一行，绕不开对各种各样的数据做统计分析（日志，性能数据等），所以awk这个数据处理命令可以说是运维的基本功。在问题来临的时候，如何快速分析现有日志定位问题点？awk是一个很好的辅助工具，所以花费一定的时间去学习它，并在日常工作中有意的多去使用以达到熟练操作，都是很有必要的。命令介绍运行模式： awk [参数可选] '条件类型1{动作1} 条件类型2{动作2} ......' filename 常用参数：【-F】指定分割符，默认空格（如 -F"," 以逗号...

利用nginx来屏蔽指定的user_agent的访问

代码菜鸟旺仔

02-23

3万+

对于做国内站的我来说，我不希望国外蜘蛛来访问我的网站，特别是个别垃圾蜘蛛，它们访问特别频繁。这些垃圾流量多了之后，严重浪费服务器的带宽和资源。通过判断user agent，在nginx中禁用这些蜘蛛可以节省一些流量，也可以防止一些恶意的访问。 1、进入nginx的配置目录，例如cd /usr/local/nginx/conf 2、添加agent_deny.conf配置文件 vi

Linux教程-linux文本处理-awk.docx

11-29

**分割符、域和记录(record)**：awk默认以空格或制表符作为字段分隔符，文件的每一行称为一个记录。如果省略了动作，那么默认会打印整个记录(`$0`)。 **常用的awk动作**： - `print`：打印指定的项，可以用逗号...

linuxawk将多个文件结果列合并到一个文件整理.pdf

12-06

在 Linux 环境下，使用 awk 工具可以将多个文件的结果列合并到一个文件中。这篇文章将介绍如何使用 awk 实现该功能，并提供了一个示例 awk 脚本来合并多个文件的结果列。在 NS 模拟结果中，经常需要对多组参数的...

linux awk输出到文件内容,使用awk格式化输出文本

weixin_35537635的博客

05-06

3909

注意：本文并不是一篇awk入门文章，而是偏重实例讲解awk借鉴了c语法，因此awk在许多地方还保留有C语言的痕迹，比如printf语句；for，if的语法结构等介绍最简单地说，AWK 是一种用于处理文本的编程语言工具，处理模式是只要在输入数据中有模式匹配，就执行一系列指令。awk命令格式为：awk {pattern + action} {filenames}awk可以读取后接的文件，也可以读取来自...

linux将文件每一列对齐输出,Linux之awk工具、printf如何格式化输出？diff如何进行文件对比？-tmp文件...

weixin_29736885的博客

04-29

1605

这一节主要介绍三个命令工具printf格式化输出awk管道命令使用diff文件对比格式化打印： printf模本练习文件练习测试文件root@ubuntu:/tmp# printf '打印格式' 实际内容printf选项与参数:关于格式方面的几个特殊样式：\a 警告声音输出\b 倒退键(backspace)\f 清除屏幕 (form feed)\n 输出新的一行\r 亦即 Enter 按键\t 水...

linux uniq去重，awk输出（可用于爆破字典优化）

weixin_30760895的博客

06-29

741

#字典去重，并按照出现次数倒叙排序 cat 字典.txt |sort |uniq -c|sort -rn| head #字典去重，并按照出现次数倒叙排序，并且去掉出现次数 cat 字典.txt |sort |uniq -c|sort -rn|awk '{print $2}'| head #选择字典中长度小于等于4的密码，（这里+1的...

Linux命令经典面试题：统计文件中出现次数最多的前10个单词

ahjxhy2010的博客

01-19

7750

使用linux命令或者shell实现：文件words存放英文单词，格式为每行一个英文单词（单词可以重复），统计这个文件中出现次数最多的前10个单词。 cat words.txt | sort | uniq -c | sort -k1,1nr | head -10 　　主要考察对sort、uniq命令的使用，相关解释如下，命令及参数的详细说明请自行通过man查看，简单介绍下以上指

shell中awk print用法

LeoHan

06-03

1万+

shell中awk对文本流数据进行处理， awk按行读取数据，每行默认用空白字符分隔，分隔后的变量依次保存在$1,$1,$3 …,$0表示整行数据一些特殊含义的选项： $0 ：该变量包含当前记录的文本内容。 $1 ：该变量包含第一个字段的文本内容。 $2 ：该变量包含第二个字段的文本内容。 ...

awk 中 {print $1} 什么意思