Spark SQL
奔走觅衣粮
活到老学到老。
展开
-
【大数据学习】之 ThriftServer
ThriftServer1、启动,[hadoop@hadoop001 sbin]$ ./start-thriftserver.sh查看是否启动成功jps-m查看UI界面2、通过客户端beeline来连接a、进入 /home/hadoop/app/spark-2.3.1-bin-2.6.0-cdh5.12.0/binb、[hadoop@hadoop001 b...原创 2019-03-18 00:00:21 · 2874 阅读 · 0 评论 -
【大数据学习】之 用spark-sql和spark-shell操作hive里面的表数据
SparkSQL与Hive的交互有两种方式,一种是spark-sql,另一种是spark-shell。要注意,访问hive前要把$HIVE_HOME/conf/hive-site.xml拷贝到$SPARK_HOME/conf,还有必须要启动hdfs,因为hive的数据是存放在hdfs上的,既然要访问hive所以需要启动hdfs。一、启动spark-sql连hive1、首先要配置spark...原创 2019-03-15 13:04:08 · 2555 阅读 · 0 评论 -
【大数据学习】之 SparkSQL概述
Spark SQL概念和用途看官网介绍,Spark SQL是Apache Spark用于处理结构化数据的模块。一、集成将SQL查询与Spark程序无缝混合。Spark SQL允许您使用SQL或熟悉的DataFrame API在Spark程序中查询结构化数据。可用于Java,Scala,Python和R.二、统一数据访问以相同的方式连接到任何数据源。DataFram...原创 2019-03-18 22:42:21 · 309 阅读 · 0 评论 -
【大数据学习】之 SparkSQL DataFrame、DataSet的概述
根据官网介绍DataFrame、DataSet:Dataset是一个分布式的数据集合。是spark1.6版本才出来的。它提供RDD中的有点(强类型、lambda表达式、优化SparkSQL执行引擎)。DataFrame中能用的东西大部分在DataSet都能用。DataSet能够通过JVM对象构建出来。DataSet能使用函数表达式(map、flatmap、filter等等)。DataSet ...原创 2019-03-25 22:56:47 · 240 阅读 · 0 评论 -
【大数据学习】SparkSQL 之 DataFrame与RDD的区别
DataFrame与RDD的区别看上图,左侧的RDD[Person]虽然以Person为类型参数,但Spark框架本身不了解Person类的内部结构,而右侧的DataFrame就不一样了,它更像是一个二维表格,在这个二维表格里面,有行有列。使得Spark SQL可以清楚地知道该数据集中包含哪些列,每列的名称和类型各是什么。DataFrame多了数据的结构信息,即不仅可以知道里面的数据,而且...原创 2019-03-27 17:45:09 · 1028 阅读 · 0 评论 -
【大数据学习】SparkSQL之 DataFrame与RDD的互操作
根据官网介绍:Spark SQL支持两种不同的方法将现有的RDDs转换为数据集。第一种方法使用反射来推断包含特定对象类型的RDD的模式。这种基于反射的方法可以生成更简洁的代码,并且当您在编写Spark应用程序时已经知道模式时,这种方法可以很好地工作。这种方式虽然简单,但是不通用;因为生产中的字段是非常非常多的。创建数据集的第二种方法是通过编程接口,该接口允许您构造模式,然后将其应用于现有的RDD。...原创 2019-04-08 23:16:31 · 413 阅读 · 0 评论