让文本飞 linux shell脚本数据挖掘实践，统计出出现次数top3的url。

最新推荐文章于 2021-05-14 20:35:20 发布

Rhythm_Lin

最新推荐文章于 2021-05-14 20:35:20 发布

阅读量3.1k

点赞数

分类专栏：数据挖掘 linux shell

本文链接：https://blog.csdn.net/jiezou007/article/details/7917321

版权

数据挖掘同时被 3 个专栏收录

5 篇文章 0 订阅

订阅专栏

linux

1 篇文章 0 订阅

订阅专栏

shell

1 篇文章 0 订阅

订阅专栏

让文本飞 linux shell脚本数据挖掘实践

参考书：Linux Shell 脚本攻略

对文件中的以下网址排序，统计出出现次数排名top3的网址。

文件名：

website

http://www.google.com
http://www.baidu.com
http://www.sina.com
http://www.bjtu.edu.cn
http://www.codeproject.com
http://www.csdn.com
http://www.sohu.com
http://www.yahoo.com
http://mail.163.com
http://www.bjtu.edu.cn
http://www.codeproject.com
http://www.csdn.com
http://www.sohu.com
http://www.yahoo.com
http://mail.163.com
http://www.codeproject.com
http://www.csdn.com
http://www.sohu.com
http://www.yahoo.com
http://mail.163.com
http://www.qq.com
http://www.hao123.com
http://www.163.com
http://youku.com
http://taobao/com
http://www.bjtu.edu.cn
http://www.codeproject.com
http://www.csdn.com
http://www.sohu.com
http://www.yahoo.com
http://mail.163.com
http://www.codeproject.com
http://www.csdn.com
http://www.sohu.com
http://www.yahoo.com
http://mail.163.com
http://www.qq.com
http://www.hao123.com
http://www.163.com
http://youku.com
http://taobao/com

shell脚本如下：

#!/bin/bash
#文件名:websort
#用途:计算文件中网址出现的次数
foo()
{
if [ $# -ne 1 ];
then
echo "Usage:$0 filename";#$0脚本名字
exit -1 
fi 

filename=$1#函数第一个参数

egrep -o "http://[a-zA-Z0-9.]+\.[a-zA-Z]{2,3}" $filename | \
#网站出现的次数统计，用到关联数组
awk '{ count[$0]++ }#$0代表每行，只需遍历一次
END{ printf("%-30s%s\n","wensite","count");
for(ind in count)
{ printf("%-30s%d\n",ind,count[ind]); }
}'
}
#输出出现次数排名前三位的网址
foo website | sort -nrk 2 | head -n 3 >websorted2.txt;

键入websort

输出

http://www.yahoo.com          5

http://www.sohu.com           5

http://www.csdn.com           5

转载请注明出处 http://write.blog.csdn.net/postlist

Rhythm_Lin

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
让文本飞 linux shell脚本数据挖掘实践，统计出出现次数top3的url。

让文本飞 linux shell脚本数据挖掘实践参考书：Linux Shell 脚本攻略对文件中的以下网址排序，统计出出现次数排名top3的网址。文件名：websitehttp://www.google.comhttp://www.baidu.comhttp://www.sina.comhttp://www.bjtu.edu.cnhttp://www.codeproje
复制链接

扫一扫

专栏目录