spark-sql
文章平均质量分 64
BBlue-Sky
这个作者很懒,什么都没留下…
展开
-
spark sql 程序开发资料合集
scala中文文档spark sql 官方文档spark sql API 官方文档(java/scala 可选)spark sql 官方文档 中文翻译原创 2017-04-29 09:07:56 · 69001 阅读 · 0 评论 -
Spark SQL Catalyst深入理解
阅读材料: SparkSQL – 从0到1认识Catalyst http://www.dataguru.cn/article-10731-1.html此篇文章介绍了Spark SQL如何将SQL语句转化为Spark物理执行计划的详细过程重点归纳: sqltext 经过 parser 得到 语法树(unresolvedlogicalplan),unre原创 2017-10-22 20:51:43 · 1244 阅读 · 0 评论 -
RDD,DataFrame 和 Dataset区别以及各自用途
http://www.tuicool.com/articles/IjMrmuZ转载 2017-05-12 10:45:41 · 572 阅读 · 0 评论 -
sparksql json,hive数据源
JSON数据集 Spark SQL能自动解析JSON数据集的Schema,读取JSON数据集为DataFrame格式。读取JSON数据集方法为SQLContext.read().json()。该方法将String格式的RDD或JSON文件转换为DataFrame。需要注意的是,这里的JSON文件不是常规的JSON格式。JSON文件每一行必须包含一个独立的、自满足有效的JSON对象。如果用多行描述一原创 2017-04-23 10:05:17 · 1083 阅读 · 0 评论 -
Spark SQL和DataFrames支持的数据格式
Spark SQL和DataFrames支持的数据格式如下:数值类型 ByteType: 代表1字节有符号整数. 数值范围: -128 到 127. ShortType: 代表2字节有符号整数. 数值范围: -32768 到 32767. IntegerType: 代表4字节有符号整数. 数值范围: -2147483648 t到 2147483647. LongType: 代表8字节有符号整原创 2017-04-23 10:20:02 · 6726 阅读 · 0 评论 -
spark SQL实例(load和save操作)
load操作:主要用于加载数据,创建出DataFramesave操作:主要用于将DataFrame中的数据保存到文件中代码示例(默认为parquet数据源类型)package wujiadong_sparkSQLimport org.apache.spark.sql.SQLContextimport org.apache.spark.{SparkConf, SparkContext}/** *原创 2017-04-23 11:12:54 · 6707 阅读 · 0 评论 -
spark SQL学习(数据源之json)
准备工作 数据文件students.json{“id”:1, “name”:”leo”, “age”:18} {“id”:2, “name”:”jack”, “age”:19} {“id”:3, “name”:”marry”, “age”:17} 存放目录:hdfs://master:9000/student/2016113012/spark/students.jsonscala代码pack原创 2017-04-23 11:15:56 · 459 阅读 · 0 评论 -
spark SQL学习(spark连接hive)
spark 读取hive中的数据 scala> import org.apache.spark.sql.hive.HiveContext import org.apache.spark.sql.hive.HiveContext scala> val hiveContext = new HiveContext(sc) //hive中的feigu数据库中表stud_info scala> va原创 2017-04-23 11:17:33 · 4909 阅读 · 0 评论 -
spark SQL学习(spark连接 mysql)
spark连接mysql(打jar包方式) package wujiadong_sparkSQLimport java.util.Propertiesimport org.apache.spark.sql.SQLContextimport org.apache.spark.{SparkConf, SparkContext}/** * Created by Administrator on 2原创 2017-04-23 11:18:57 · 798 阅读 · 0 评论 -
Spark-SQL之DataFrame操作大全
Spark SQL中的DataFrame类似于一张关系型数据表。在关系型数据库中对单表或进行的查询操作,在DataFrame中都可以通过调用其API接口来实现。可以参考,Scala提供的DataFrame API。 本文中的代码基于Spark-1.6.2的文档实现。一、DataFrame对象的生成 Spark-SQL可以以其他RDD对象、parquet文件、json文件、Hive表,以及通过JD原创 2017-04-23 11:46:58 · 436 阅读 · 0 评论 -
Spark SQL入门用法与原理分析
sparkSQL是为了让开发人员摆脱自己编写RDD等原生Spark代码而产生的,开发人员只需要写一句SQL语句或者调用API,就能生成(翻译成)对应的SparkJob代码并去执行,开发变得更简洁注意:本文全部基于SparkSQL1.6参考:http://spark.apache.org/docs/1.6.0/一. API Spark SQL的API方案:3种SQLthe DataFrames AP原创 2017-04-23 17:09:35 · 950 阅读 · 0 评论 -
DataSet 实质解读
参考资料:http://www.jianshu.com/p/77811ae29fddhttp://blog.csdn.net/zg_hover/article/details/54405224?locationNum=10&fps=1http://geek.csdn.net/news/detail/96754原创 2017-10-24 21:38:59 · 340 阅读 · 0 评论