AMPCamp2015之SparkSQL

kaiseu

于 2015-06-09 16:11:04 发布

阅读量2.2k

点赞数

分类专栏： hdfs hadoop 文章标签： spark SparkSQL

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/kinger0/article/details/46427985

版权

hadoop 同时被 2 个专栏收录

8 篇文章 0 订阅

订阅专栏

6 篇文章 0 订阅

订阅专栏

1 数据准备

1.1 实验数据基于AMPCamp2015的exercise，原始数据在U盘的/data目录中，首先将数据上传到hdfs

2 开始实验

2.1 启动spark-shell

监控界面如下：

2.2 代码

2.2.1 创建SQLContext

val sqlContext = new org.apache.spark.sql.SQLContext(sc)

2.2.2 装载数据

首先，装载数据，装载的数据格式为parquet，Apache Parquet is a columnar storage format available to any project in the Hadoop ecosystem, regardless of the choice of data processing framework, data model or programming language.（Parquet是一种面向列存存储的文件格式，Cloudera的大数据在线分析（OLAP）项目Impala中使用该格式作为列存储。Apache Parquet 是一个列存储格式，主要用于 Hadoop 生态系统。对数据处理框架、数据模型和编程语言无关。）

上一步中上传到hdfs的数据/data/wiki_parquet中保存的是来自于wikipedia的包含“berkeley”的网页

val wikiData = sqlContext.parquetFile("/data/wiki_parquet")

2.2.3 首先，看一共有多少数据

wikiData.count()

结果为：

2.2.4 将数据注册为表

wikiData.registerTempTable("wikiData")
并进行查询：
val countResult = sqlContext.sql("SELECT COUNT(*) FROM wikiData").collect()

得到的结果为：

val sqlCount = countResult.head.getLong(0)

3 查询

3.1 查询创建网页最多的前10位用户

sqlContext.sql("SELECT username, COUNT(*) AS cnt FROM wikiData WHERE username <> '' GROUP BY username ORDER BY cnt DESC LIMIT 10").collect().foreach(println)

4 IDEA提交

结果：

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

kaiseu CSDN认证博客专家 CSDN认证企业博客

码龄13年

38: 原创

18万+: 周排名

120万+: 总排名

40万+: 访问

: 等级

2986: 积分

27: 粉丝

39: 获赞

18: 评论

68: 收藏

私信

关注

热门文章

分类专栏

hive 3篇
spark 12篇
安装 5篇
linux 16篇
hadoop 8篇
hdfs 6篇
java 29篇
idea 4篇
scala 7篇
算法题 17篇
c++ 6篇
network 1篇
sql 2篇
others 2篇

最新评论

Idea 编译报错 javacTask: 源发行版 1.6 需要目标发行版 1.6
菜菜的大数据开发之路: 博主是男生女生? 写的真的爆赞,有空来我博客指点一下好吧?
Java字符串题目--去除重复字符并排序
duyangge_: 利用的是相同的字符转换的AscII相同
Java字符串题目--去除重复字符并排序
新星裂变回复她的坏机器人: //将字母串去重并排序 //字符和数字随意转换 @Test public void test2() { String s = "adfghdfdaer"; char[] sChars = s.toCharArray(); //定义一个数组长度255 char[] chars = new char[255]; int temp;//临时变量 for (int i = 0; i < sChars.length; i++) { //sChars[i]每个字符对应的ascII temp = sChars[i];//这一步就去重了 //初始化字节数组 chars[temp]默认为0 if(chars[temp] == 0){ chars[temp] = 1; } } //可变长字符串排序 StringBuffer sb = new StringBuffer(); //chars[temp] = 1;这一步已经将值存好了 for (int i = 0; i < chars.length; i++) { if(chars[i] == 1){ sb.append((char)i); // sb.append(i); } } System.out.println(sb.toString()); } 这是我补充的注释希望能帮助后面的人不谢
Idea 编译报错 javacTask: 源发行版 1.6 需要目标发行版 1.6
weixin_43784272: 有用
数据库查询之通配符的使用
汉诺塔少年: 请问为什么 _ 没有效果？

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。