Spark SQL_tom_8899_li的博客-CSDN博客

Spark SQL

关注

关注数：文章数：23 文章阅读量：13681 文章收藏量：2

作者: tom_8899_li

这个作者很懒，什么都没留下…

展开

大数据IMF传奇行动绝密课程第59课：使用Java和Scala在IDE中实战RDD和DataFrame转换操作

大数据IMF传奇行动绝密课程第59课：使用Java和Scala在IDE中实战RDD和DataFrame转换操作 1、RDD与DataFrame转换的重大意义 2、使用Java实战RDD与DataFrame转换 3、使用Scala实战RDD与DataFrame转换 RDD接上数据库、接上文件系统，无限想象空间~，极大加速和简化了大数据开发通过反射来预测转换 case class/Java

原创 2016-09-11 23:48:42 · 578 阅读 · 0 评论
大数据IMF传奇行动绝密课程第68课：Spark SQL通过JDBC操作MySQL

Spark SQL通过JDBC操作MySQL使用Spark通过JDBC操作数据库 Spark SQL可以通过JDBC从传统的关系型数据库中读写数据，读取数据后直接生成的是DataFrame，然后再加上借助于Spark内核的丰富的API来来进行各种操作；/** * Java代码 */package com.tom.spark.SparkApps.sql;import java.sql.Conn

原创 2017-03-09 23:16:40 · 539 阅读 · 0 评论
大数据IMF传奇行动绝密课程第69课：Spark SQL通过Hive数据源实战

Spark SQL通过Hive数据源实战1、Spark SQL操作Hive解析 2、Spark SQL操作Hive实战/** * Scala代码 */package com.tom.spark.sqlimport org.apache.spark.sql.hive.HiveContextimport org.apache.spark.{SparkConf, SparkContext}

原创 2017-03-09 23:20:02 · 736 阅读 · 0 评论
大数据IMF传奇行动绝密课程第70课：Spark SQL内置函数解密与实战

Spark SQL内置函数解密与实战1、Spark Sql内置函数解析 2、Spark Sql内置函数实战/** * scala代码 */package com.tom.spark.sqlimport org.apache.spark.sql.types.{IntegerType, StringType, StructField, StructType}import org.apach

原创 2017-03-09 23:23:03 · 568 阅读 · 0 评论
大数据IMF传奇行动绝密课程第71课：Spark SQL窗口函数解密与实战

Spark SQL窗口函数解密与实战1、Spark SQL窗口函数解析 2、Spark SQL窗口函数实战/** * Scala代码 */package com.tom.spark.sqlimport org.apache.spark.sql.DataFrameimport org.apache.spark.{SparkConf, SparkContext}import org.ap

原创 2017-03-09 23:27:10 · 526 阅读 · 0 评论
大数据IMF传奇行动绝密课程第73课：Spark SQL Thrift Server实战

Spark SQL Thrift Server实战通过JDBC/ODBC->Thirft Server->Spark SQL->Hive取代传统数据库为后台的系统启动hive：hive --service metastore &hive服务端：启动thrift服务端./start-thriftserver.sh --master spark://Master:7077 --hiveconf h

原创 2017-03-16 14:35:08 · 537 阅读 · 0 评论
大数据IMF传奇行动绝密课程第74课：Hive on Spark大揭秘

Hive on Spark大揭秘hive –metadata & hive hive>set spark.master=spark://Master:7077; hive>set hive.execution.engine=spark; hive> set spark.home=/usr/local/spark/spark-1.6.1-bin-hadoop2.6;本身Hive on Spar

原创 2017-03-16 14:36:28 · 853 阅读 · 0 评论
大数据IMF传奇行动绝密课程第72课：Spark SQL UDF和UDAF解密与实战

第72课：Spark SQL UDF和UDAF解密与实战/** * scala代码 */package com.tom.spark.sqlimport org.apache.spark.sql.expressions.{MutableAggregationBuffer, UserDefinedAggregateFunction}import org.apache.spark.sql.ty

原创 2017-03-09 23:33:50 · 627 阅读 · 0 评论
大数据IMF传奇行动绝密课程第75-79课：Spark SQL基于网站Log的综合案例实战

Spark SQL基于网站Log的综合案例实战/** * 生成数据 SparkSQLDataManually.java */package com.tom.spark.SparkApps.sql;import java.io.FileNotFoundException;import java.io.FileOutputStream;import java.io.OutputStreamWr

原创 2017-03-16 14:47:54 · 574 阅读 · 0 评论
大数据IMF传奇行动绝密课程第80课：Spark SQL网站搜索综合案例实战

Spark SQL网站搜索综合案例实战1、案例解析 2、案例实战找出搜索平台上用户每天搜索排名前5名的产品元数据：Date、User、Item、City、Device 总体思路：混合使用Spark SQL和Spark Core的内容一、原始的ETL，过滤数据后产生目标数据数据，在实际企业中可能过滤条件非常复杂（进行广播），使用RDD的filter等进行操作；二、对过滤后的目标数据进行

原创 2017-03-16 14:48:42 · 645 阅读 · 0 评论
大数据IMF传奇行动绝密课程第67课：spark SQL案例综合实战

spark SQL案例综合实战/** * Java 实战 */package com.tom.spark.SparkApps.sql;import java.util.ArrayList;import java.util.List;import org.apache.hadoop.hive.ql.parse.HiveParser.rowFormat_return;import org.ap

原创 2017-03-09 23:11:11 · 679 阅读 · 0 评论
大数据IMF传奇行动绝密课程第66课：Spark SQL下Parquet中PushDown的实现

Spark SQL下Parquet中PushDown的实现1、Spark SQL下的PushDown的价值 2、Spark SQL下的Parquet下的PushDown实现SQL角度讲有基本的过滤、语法树。语法树过滤也有2个层次，一个是基本的过滤，一个是真正的解析。优化是对各种filter进行合并，而且会调整顺序。最后从Catalyst角度，它会变成RDD进行操作，最后会装入到DataSource

原创 2017-03-06 16:25:27 · 485 阅读 · 0 评论
大数据IMF传奇行动绝密课程第65课：Spark SQL下Parquet深入进阶

Spark SQL下Parquet深入进阶1、Spark SQL下的Parquet序列化 2、Spark SQL下的Parquet源码解读 3、Spark SQL下Parquet总结Parquet中Block、File、ColumnChunk 将数据按列存储时，每一列的数据会被分成多个列块。存储时有一个逻辑级别的概念RowGroup（行组）。每一列的列块组合起来就是RowGroup。Row

原创 2017-03-06 16:24:08 · 634 阅读 · 0 评论
大数据IMF传奇行动绝密课程第60课：使用Java和Scala在IDE中实战RDD和DataFrame动态转换操作

使用Java和Scala在IDE中实战RDD和DataFrame动态转换操作1、使用Java实战RDD与DataFrame转换 2、使用Scala实战RDD与DataFrame转换 public static void ByProgramming(){ SparkConf conf = new SparkConf().setAppName("RDD2DataFrameByRe

原创 2016-09-12 00:12:53 · 390 阅读 · 0 评论
大数据IMF传奇行动绝密课程第61课：Spark SQL数据加载和保存内幕深度解密实战

Spark SQL数据加载和保存内幕深度解密实战1、Spark SQL加载数据 2、Spark SQL保存数据 3、Spark SQL对数据处理的思考sqlContext.read().json(“”) 和 sqlContext.read().format(“json”).load(“Somepath”)等价；如果不指定format的话默认使用Parquet格式读取sqlContext.writ

原创 2016-09-12 00:31:28 · 395 阅读 · 0 评论
大数据IMF传奇行动绝密课程第63课：Spark SQL下Parquet内幕深度解密

Spark SQL下Parquet内幕深度解密1、Spark SQL下的Parquet意义再思考 2、Spark SQL下的Parquet内幕揭秘一、Spark SQL下的Parquet意义再思考 1、如果说HDFS是大数据时代分布式文件系统存储的事实标准的话，Parquet则是整个大数据时代文件存储格式的事实标准 2、速度更快：从实用Spark SQL操作普通文件CSV和Parquet文件的

原创 2016-09-12 00:33:26 · 658 阅读 · 0 评论
大数据IMF传奇行动绝密课程第62课：Spark SQL下的Parquet使用最佳实践和代码实战

Spark SQL下的Parquet使用最佳实践和代码实战1、Spark SQL下的Parquet使用最佳实践 2、Spark SQL下的Parquet实战一、Spark SQL下的Parquet使用最佳实践 1、过去整个业界对大数据分析的技术栈的Pipeline一般分为以下两种方式 a)Data Source -> HDFS -> MR/Hive/Spark(相当于ETL) -> HDF

原创 2016-09-12 00:32:16 · 768 阅读 · 0 评论
大数据IMF传奇行动绝密课程第55课：60分钟从零起步驾驭Hive实战

60分钟从零起步驾驭Hive实战1、Hive本质解析 2、Hive安装实战 3、使用Hive操作搜索引擎数据实战一、Hive的本质是什么？ 1、Hive是分布式数据仓库，同时又是查询引擎，所以SparkSQL取代的只是Hive查询引擎，在企业实际生产环境下Hive+Spark SQL是目前最为经典的数据分析组合； 2、Hive本身就是一个简单单机版本的软件，主要负责： a)把HQL翻译

原创 2016-09-05 21:50:13 · 795 阅读 · 0 评论
大数据IMF传奇行动绝密课程第56课：揭秘Spark SQL和DataFrame的本质

揭秘Spark SQL和DataFrame的本质1、Spark SQL与DataFrame 2、DataFrame与RDD 3、企业级最佳实践一、SparkSQL与DataFrame 1、SparkSQL之所以是除了SparkCore以外最大的和最受关注的组件，原因是 a)处理一切存储介质和各种格式的数据（同时可以方便的扩展Spake SQL的功能来支持更多类型的数据，例如Kudu）

原创 2016-09-07 00:47:17 · 483 阅读 · 0 评论
大数据IMF传奇行动绝密课程第57课：Spark SQL on Hive配置及实战

Spark SQL on Hive配置及实战因为底层hive最为存储引擎，所以需要配置hive-site.xml//配置以下参数hive.metastore.uristhrift://Master:9083在linux下运行如下命令hive --service metastore >metastore.log 2>& 1&启动spark-shellval hiveContext = org.

原创 2016-09-07 00:50:23 · 500 阅读 · 0 评论
大数据IMF传奇行动绝密课程第58课：使用Java和Scala在IDE中开发DataFrame实战

使用Java和Scala在IDE中开发DataFrame实战1、使用Java开发DataFrame 2、使用Scala开发DataFrame创建DataFrame的时候可以来自于其它RDD，来源于Hive表，以及其他数据来源，例如json文件 SQLContext只支持SQL一种方言（delax?），HiveContext支持SQL方言以及其它方言，通过设置都可以支持。一、使用Java开发Dat

原创 2016-09-07 00:55:24 · 453 阅读 · 0 评论
大数据IMF传奇行动绝密课程第64课：Spark SQL下Parquet的数据切分和压缩内幕详解

Spark SQL下Parquet的数据切分和压缩内幕详解1、Spark SQL下的Parquet数据切分 2、Spark SQL下的Parquet数据压缩parquetBlocksize总体上讲是压缩后的大小private static final Log LOG = Log.getLog(ParquetOutputFormat.class); public static final Stri

原创 2017-03-06 16:20:52 · 757 阅读 · 0 评论
大数据IMF传奇行动绝密课程第81课：一节课贯通Spark SQL工作源码流程

一节课贯通Spark SQL工作源码流程

原创 2017-03-16 14:52:49 · 516 阅读 · 0 评论

Spark SQL

作者: tom_8899_li

大数据IMF传奇行动绝密课程第59课：使用Java和Scala在IDE中实战RDD和DataFrame转换操作

大数据IMF传奇行动绝密课程第68课：Spark SQL通过JDBC操作MySQL

大数据IMF传奇行动绝密课程第69课：Spark SQL通过Hive数据源实战

大数据IMF传奇行动绝密课程第70课：Spark SQL内置函数解密与实战

大数据IMF传奇行动绝密课程第71课：Spark SQL窗口函数解密与实战

大数据IMF传奇行动绝密课程第73课：Spark SQL Thrift Server实战

大数据IMF传奇行动绝密课程第74课：Hive on Spark大揭秘

大数据IMF传奇行动绝密课程第72课：Spark SQL UDF和UDAF解密与实战

大数据IMF传奇行动绝密课程第75-79课：Spark SQL基于网站Log的综合案例实战

大数据IMF传奇行动绝密课程第80课：Spark SQL网站搜索综合案例实战

大数据IMF传奇行动绝密课程第67课：spark SQL案例综合实战

大数据IMF传奇行动绝密课程第66课：Spark SQL下Parquet中PushDown的实现

大数据IMF传奇行动绝密课程第65课：Spark SQL下Parquet深入进阶

大数据IMF传奇行动绝密课程第60课：使用Java和Scala在IDE中实战RDD和DataFrame动态转换操作

大数据IMF传奇行动绝密课程第61课：Spark SQL数据加载和保存内幕深度解密实战

大数据IMF传奇行动绝密课程第63课：Spark SQL下Parquet内幕深度解密

大数据IMF传奇行动绝密课程第62课：Spark SQL下的Parquet使用最佳实践和代码实战

大数据IMF传奇行动绝密课程第55课：60分钟从零起步驾驭Hive实战

大数据IMF传奇行动绝密课程第56课：揭秘Spark SQL和DataFrame的本质

大数据IMF传奇行动绝密课程第57课：Spark SQL on Hive配置及实战

大数据IMF传奇行动绝密课程第58课：使用Java和Scala在IDE中开发DataFrame实战

大数据IMF传奇行动绝密课程第64课：Spark SQL下Parquet的数据切分和压缩内幕详解

大数据IMF传奇行动绝密课程第81课：一节课贯通Spark SQL工作源码流程