Spark SQL
tom_8899_li
这个作者很懒,什么都没留下…
展开
-
大数据IMF传奇行动绝密课程第59课:使用Java和Scala在IDE中实战RDD和DataFrame转换操作
大数据IMF传奇行动绝密课程第59课:使用Java和Scala在IDE中实战RDD和DataFrame转换操作 1、RDD与DataFrame转换的重大意义 2、使用Java实战RDD与DataFrame转换 3、使用Scala实战RDD与DataFrame转换 RDD接上数据库、接上文件系统,无限想象空间~,极大加速和简化了大数据开发 通过反射来预测转换 case class/Java原创 2016-09-11 23:48:42 · 578 阅读 · 0 评论 -
大数据IMF传奇行动绝密课程第68课:Spark SQL通过JDBC操作MySQL
Spark SQL通过JDBC操作MySQL使用Spark通过JDBC操作数据库 Spark SQL可以通过JDBC从传统的关系型数据库中读写数据,读取数据后直接生成的是DataFrame,然后再加上借助于Spark内核的丰富的API来来进行各种操作;/** * Java代码 */package com.tom.spark.SparkApps.sql;import java.sql.Conn原创 2017-03-09 23:16:40 · 539 阅读 · 0 评论 -
大数据IMF传奇行动绝密课程第69课:Spark SQL通过Hive数据源实战
Spark SQL通过Hive数据源实战1、Spark SQL操作Hive解析 2、Spark SQL操作Hive实战/** * Scala代码 */package com.tom.spark.sqlimport org.apache.spark.sql.hive.HiveContextimport org.apache.spark.{SparkConf, SparkContext}原创 2017-03-09 23:20:02 · 736 阅读 · 0 评论 -
大数据IMF传奇行动绝密课程第70课:Spark SQL内置函数解密与实战
Spark SQL内置函数解密与实战1、Spark Sql内置函数解析 2、Spark Sql内置函数实战/** * scala代码 */package com.tom.spark.sqlimport org.apache.spark.sql.types.{IntegerType, StringType, StructField, StructType}import org.apach原创 2017-03-09 23:23:03 · 568 阅读 · 0 评论 -
大数据IMF传奇行动绝密课程第71课:Spark SQL窗口函数解密与实战
Spark SQL窗口函数解密与实战1、Spark SQL窗口函数解析 2、Spark SQL窗口函数实战/** * Scala代码 */package com.tom.spark.sqlimport org.apache.spark.sql.DataFrameimport org.apache.spark.{SparkConf, SparkContext}import org.ap原创 2017-03-09 23:27:10 · 526 阅读 · 0 评论 -
大数据IMF传奇行动绝密课程第73课:Spark SQL Thrift Server实战
Spark SQL Thrift Server实战通过JDBC/ODBC->Thirft Server->Spark SQL->Hive取代传统数据库为后台的系统 启动hive:hive --service metastore &hive服务端:启动thrift服务端./start-thriftserver.sh --master spark://Master:7077 --hiveconf h原创 2017-03-16 14:35:08 · 537 阅读 · 0 评论 -
大数据IMF传奇行动绝密课程第74课:Hive on Spark大揭秘
Hive on Spark大揭秘hive –metadata & hive hive>set spark.master=spark://Master:7077; hive>set hive.execution.engine=spark; hive> set spark.home=/usr/local/spark/spark-1.6.1-bin-hadoop2.6;本身Hive on Spar原创 2017-03-16 14:36:28 · 853 阅读 · 0 评论 -
大数据IMF传奇行动绝密课程第72课:Spark SQL UDF和UDAF解密与实战
第72课:Spark SQL UDF和UDAF解密与实战/** * scala代码 */package com.tom.spark.sqlimport org.apache.spark.sql.expressions.{MutableAggregationBuffer, UserDefinedAggregateFunction}import org.apache.spark.sql.ty原创 2017-03-09 23:33:50 · 627 阅读 · 0 评论 -
大数据IMF传奇行动绝密课程第75-79课:Spark SQL基于网站Log的综合案例实战
Spark SQL基于网站Log的综合案例实战/** * 生成数据 SparkSQLDataManually.java */package com.tom.spark.SparkApps.sql;import java.io.FileNotFoundException;import java.io.FileOutputStream;import java.io.OutputStreamWr原创 2017-03-16 14:47:54 · 574 阅读 · 0 评论 -
大数据IMF传奇行动绝密课程第80课:Spark SQL网站搜索综合案例实战
Spark SQL网站搜索综合案例实战1、案例解析 2、案例实战找出搜索平台上用户每天搜索排名前5名的产品 元数据:Date、User、Item、City、Device 总体思路:混合使用Spark SQL和Spark Core的内容 一、原始的ETL,过滤数据后产生目标数据数据,在实际企业中可能过滤条件非常复杂(进行广播),使用RDD的filter等进行操作; 二、对过滤后的目标数据进行原创 2017-03-16 14:48:42 · 645 阅读 · 0 评论 -
大数据IMF传奇行动绝密课程第67课:spark SQL案例综合实战
spark SQL案例综合实战/** * Java 实战 */package com.tom.spark.SparkApps.sql;import java.util.ArrayList;import java.util.List;import org.apache.hadoop.hive.ql.parse.HiveParser.rowFormat_return;import org.ap原创 2017-03-09 23:11:11 · 679 阅读 · 0 评论 -
大数据IMF传奇行动绝密课程第66课:Spark SQL下Parquet中PushDown的实现
Spark SQL下Parquet中PushDown的实现1、Spark SQL下的PushDown的价值 2、Spark SQL下的Parquet下的PushDown实现SQL角度讲有基本的过滤、语法树。语法树过滤也有2个层次,一个是基本的过滤,一个是真正的解析。优化是对各种filter进行合并,而且会调整顺序。最后从Catalyst角度,它会变成RDD进行操作,最后会装入到DataSource原创 2017-03-06 16:25:27 · 485 阅读 · 0 评论 -
大数据IMF传奇行动绝密课程第65课:Spark SQL下Parquet深入进阶
Spark SQL下Parquet深入进阶1、Spark SQL下的Parquet序列化 2、Spark SQL下的Parquet源码解读 3、Spark SQL下Parquet总结Parquet中Block、File、ColumnChunk 将数据按列存储时,每一列的数据会被分成多个列块。 存储时有一个逻辑级别的概念RowGroup(行组)。每一列的列块组合起来就是RowGroup。Row原创 2017-03-06 16:24:08 · 634 阅读 · 0 评论 -
大数据IMF传奇行动绝密课程第60课:使用Java和Scala在IDE中实战RDD和DataFrame动态转换操作
使用Java和Scala在IDE中实战RDD和DataFrame动态转换操作1、使用Java实战RDD与DataFrame转换 2、使用Scala实战RDD与DataFrame转换 public static void ByProgramming(){ SparkConf conf = new SparkConf().setAppName("RDD2DataFrameByRe原创 2016-09-12 00:12:53 · 390 阅读 · 0 评论 -
大数据IMF传奇行动绝密课程第61课:Spark SQL数据加载和保存内幕深度解密实战
Spark SQL数据加载和保存内幕深度解密实战1、Spark SQL加载数据 2、Spark SQL保存数据 3、Spark SQL对数据处理的思考sqlContext.read().json(“”) 和 sqlContext.read().format(“json”).load(“Somepath”)等价;如果不指定format的话默认使用Parquet格式读取sqlContext.writ原创 2016-09-12 00:31:28 · 395 阅读 · 0 评论 -
大数据IMF传奇行动绝密课程第63课:Spark SQL下Parquet内幕深度解密
Spark SQL下Parquet内幕深度解密1、Spark SQL下的Parquet意义再思考 2、Spark SQL下的Parquet内幕揭秘一、Spark SQL下的Parquet意义再思考 1、如果说HDFS是大数据时代分布式文件系统存储的事实标准的话,Parquet则是整个大数据时代文件存储格式的事实标准 2、速度更快:从实用Spark SQL操作普通文件CSV和Parquet文件的原创 2016-09-12 00:33:26 · 658 阅读 · 0 评论 -
大数据IMF传奇行动绝密课程第62课:Spark SQL下的Parquet使用最佳实践和代码实战
Spark SQL下的Parquet使用最佳实践和代码实战1、Spark SQL下的Parquet使用最佳实践 2、Spark SQL下的Parquet实战 一、Spark SQL下的Parquet使用最佳实践 1、过去整个业界对大数据分析的技术栈的Pipeline一般分为以下两种方式 a)Data Source -> HDFS -> MR/Hive/Spark(相当于ETL) -> HDF原创 2016-09-12 00:32:16 · 768 阅读 · 0 评论 -
大数据IMF传奇行动绝密课程第55课:60分钟从零起步驾驭Hive实战
60分钟从零起步驾驭Hive实战1、Hive本质解析 2、Hive安装实战 3、使用Hive操作搜索引擎数据实战 一、Hive的本质是什么? 1、Hive是分布式数据仓库,同时又是查询引擎,所以SparkSQL取代的只是Hive查询引擎,在企业实际生产环境下Hive+Spark SQL是目前最为经典的数据分析组合; 2、Hive本身就是一个简单单机版本的软件,主要负责: a)把HQL翻译原创 2016-09-05 21:50:13 · 795 阅读 · 0 评论 -
大数据IMF传奇行动绝密课程第56课:揭秘Spark SQL和DataFrame的本质
揭秘Spark SQL和DataFrame的本质1、Spark SQL与DataFrame 2、DataFrame与RDD 3、企业级最佳实践 一、SparkSQL与DataFrame 1、SparkSQL之所以是除了SparkCore以外最大的和最受关注的组件,原因是 a)处理一切存储介质和各种格式的数据(同时可以方便的扩展Spake SQL的功能来支持更多类型的数据,例如Kudu)原创 2016-09-07 00:47:17 · 483 阅读 · 0 评论 -
大数据IMF传奇行动绝密课程第57课:Spark SQL on Hive配置及实战
Spark SQL on Hive配置及实战因为底层hive最为存储引擎,所以需要配置hive-site.xml//配置以下参数hive.metastore.uristhrift://Master:9083在linux下运行如下命令hive --service metastore >metastore.log 2>& 1&启动spark-shellval hiveContext = org.原创 2016-09-07 00:50:23 · 500 阅读 · 0 评论 -
大数据IMF传奇行动绝密课程第58课:使用Java和Scala在IDE中开发DataFrame实战
使用Java和Scala在IDE中开发DataFrame实战1、使用Java开发DataFrame 2、使用Scala开发DataFrame创建DataFrame的时候可以来自于其它RDD,来源于Hive表,以及其他数据来源,例如json文件 SQLContext只支持SQL一种方言(delax?),HiveContext支持SQL方言以及其它方言,通过设置都可以支持。一、使用Java开发Dat原创 2016-09-07 00:55:24 · 453 阅读 · 0 评论 -
大数据IMF传奇行动绝密课程第64课:Spark SQL下Parquet的数据切分和压缩内幕详解
Spark SQL下Parquet的数据切分和压缩内幕详解1、Spark SQL下的Parquet数据切分 2、Spark SQL下的Parquet数据压缩parquetBlocksize总体上讲是压缩后的大小private static final Log LOG = Log.getLog(ParquetOutputFormat.class); public static final Stri原创 2017-03-06 16:20:52 · 757 阅读 · 0 评论 -
大数据IMF传奇行动绝密课程第81课:一节课贯通Spark SQL工作源码流程
一节课贯通Spark SQL工作源码流程原创 2017-03-16 14:52:49 · 516 阅读 · 0 评论