spark1.2.1下的sql测试

最新推荐文章于 2022-10-05 18:27:50 发布

weipanp

最新推荐文章于 2022-10-05 18:27:50 发布

阅读量468

点赞数

分类专栏： spark

本文链接：https://blog.csdn.net/weipanp/article/details/45039623

版权

spark 专栏收录该内容

11 篇文章 0 订阅

订阅专栏

安装了spark之后，可以在 shell中执行Spark SQL。Spark SQL是支持在Spark中使用Sql、HiveSql、Scaca中的关系型查询表达式。它的核心组件是一个新增的RDD类型SchemaRDD，它把行对象用一个Schema来描述行里面的所有列的数据类型，它就像是关系型数据库里面的一张表。它可以从原有的RDD创建，也可以是Parquet文件，最重要的是它可以支持用HiveQL从hive里面读取数据。

首先查看下数据文件：

Spark SQL测试：

val sqlContext = new org.apache.spark.sql.SQLContext(sc)
import sqlContext._
case class Person(name: String, age: Int)
val people = sc.textFile("/user/hadoop/test/input/test.txt").map(_.split(",")).map(p => Person(p(0), p(1).trim.toInt))
people.registerAsTable("people")
val teenagers = sql("SELECT name FROM")
teenagers.map(t => "Name: " + t(0)).collect().foreach(println)
shell将输出：

14/11/23 16:28:07 INFO SparkContext: Job finished: collect at <console>:20, took 0.377845624 s
Name: a

HiveQL测试：

val hiveContext = new org.apache.spark.sql.hive.HiveContext(sc)
import hiveContext._
hql("CREATE TABLE IF NOT EXISTS src (key INT, value STRING)")
hql("LOAD DATA LOCAL INPATH '/home/hadoop/shareWin/test.txt' INTO TABLE src")
hql("SELECT count(*) FROM src").collect().foreach(println)
hql("SELECT key, value FROM src ").collect().foreach(println)

通过hive数据库里可以查到sparkhivesql的创建的表，也可以查到数据

weipanp

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark1.2.1下的sql测试

安装了spark之后，可以在 shell中执行Spark SQL。Spark SQL是支持在Spark中使用Sql、HiveSql、Scaca中的关系型查询表达式。它的核心组件是一个新增的RDD类型SchemaRDD，它把行对象用一个Schema来描述行里面的所有列的数据类型，它就像是关系型数据库里面的一张表。它可以从原有的RDD创建，也可以是Parquet文件，最重要的是它可以支持用HiveQL
复制链接

扫一扫