Spark SQL实战查询网页数据分析

32 篇文章 1 订阅
6 篇文章 0 订阅

Spark以及Hive安装见我的博客:https://blog.csdn.net/qq_25948717/article/details/80758713

                                                     https://blog.csdn.net/qq_25948717/article/details/81054411

使用Spark SQL,并使用Hive作为数据仓库,需要在安装了Hive的那台机器上的Spark的conf下配置Hive的元数据信息,这即使不启动Hive,Spark也可以正常工作。

vim hive-site.xml

启动Metastore服务:hive --service metastore &

Spark SQL初试:

从Spark的examples里面上传people.json到hdfs:

通过spark-shell来使用Spark SQL,启动spark-shell:

通过spark sql读取people.json数据:

通过网页可以看到以下任务正在运行:

####创建一个sqlcontext

####读取json中的数据并且创建一个Dataframe

####查看dataframe的内容

####查看dataframede 树形结构

####只查看name这列的数据,并显示

####查看name和age+1的结果,并show

####选择年龄大于21岁的人:

启动Spark SQL 使用:进入到Spark安装目录下的bin,运行 ./spark-sql,启动之前必须启动Hive的Metastore服务

:hive --service metastore > metastore.log 2>& 1&,此之前必须启动hadoop。

Spark SQL CLI操作:几乎和DBMS中的操作一摸一样。

####列出Hive中的数据库: show databases;

注意如果没有将hive的hive-site.xml拷贝到spark的conf中,通过Spark sql并不能显示hive中通过hive创建的数据库,

Hadoop下的core-site.xml和hdfs-site.xml也拷贝过来。

还需外另外创建:

通过Spark sql并看不到:

将hive-site.xml拷贝后重新启动spark-sql:

查看表:

查看数据:

 

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值