各个版本的wordcount

最新推荐文章于 2024-03-24 16:37:40 发布

spy410521

最新推荐文章于 2024-03-24 16:37:40 发布

阅读量267

点赞数

本文链接：https://blog.csdn.net/u010506876/article/details/88687522

版权

1.shell命令求wordcount

wc.txt内容：

hello world

hello spark

hello scala

hello hive

hello hbase regionServer

shell命令为：

cat wc.txt|awk -F " " 'BEGIN{} {for(i=1;i<=NF;i++){wordName[$i]=$i;wc[$i]++}} END{for(j in wordName){print j":"wc[j]}}'

结果：

world:1
scala:1
spark:1
hbase:1
regionServer:1
hive:1
hello:5

2.hive版wordcount

wordcount表中有一列 wc列

wc列的值：hello world hello spark hello scala hello java

使用到的用法：

SELECT explode(myCol) AS myNewCol FROM myTable; #explode就是将hive一行中复杂的array或者map结构拆分成多行。

SELECT pageid, adid
FROM pageAds LATERAL VIEW explode(adid_list) adTable AS adid GROUP BY adid; #explode将复杂结构一行拆成多行，然后再用lateral view做各种聚合，adTable为拆分后的表名，adid为表名中的列

hive sql语句

select col1,count(*) from (select explode(split(wc," ")) as col1 from wordcount) t group by col1 order by desc

3.spark core求wordcount

val conf= new SparkConf().setMaster("local[1]").setAppName("wordcoount")
val sc= new SparkContext(conf)
val lines=sc.textFile(args(0))
val wc=lines.flatmap(_.split(" ")).map(word=>(word,1)).reduceByKey(_+_)
wc.foreach(println)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

spy410521

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
各个版本的wordcount

1.shell命令求wordcountwc.txt内容：hello worldhello sparkhello scalahello hivehello hbase regionServershell命令为：cat wc.txt|awk -F " " 'BEGIN{} {for(i=1;i<=NF;i++){wordName[$i]=$i;wc[$...
复制链接

扫一扫