SparkSQL
文章平均质量分 62
铁头乔
公众号:铁头乔
展开
-
SparkSQL2.0扩展外部数据源原理(读取外部系统)
spark2.0中,提供了两种扩展外部数据源的接口, 第一种外部数据源为文件,第二种外部数据源为系统 spark内部调用外部数据源包的类是下面,包括解析BaseRelation,提取schema等 package org.apache.spark.sql.execution.datasources 文件接口扩展外部文件数据源需要实现的接口所在文件fileSourceInterf...原创 2017-04-27 10:02:38 · 2281 阅读 · 5 评论 -
spark-shell读取外部数据源
spark-shell读取外部数据源,集群和local模式,引用外部jar包原创 2017-06-13 20:13:21 · 987 阅读 · 0 评论 -
SparkSQL2.0扩展外部数据源原理(读取HDFS文件)
SparkSQL专门为读取HDFS上的文件开的外部数据源接口,spark-parquet、csv、json等都是这种方式。DefaultSource入口类,用来建立外部数据源连接,SparkSQL默认会找这个名字,不要改类名。基本所有接口都在这个类里private[tsfile] class DefaultSource extends FileFormat with DataS...原创 2018-05-10 11:49:27 · 3174 阅读 · 0 评论 -
SparkSQL2.0扩展外部数据源原理(写HDFS文件)
SparkSQL专门为读写HDFS上的文件开的外部数据源接口,spark-parquet、csv、json等都是这种方式。DefaultSource入口类,用来建立外部数据源连接,SparkSQL默认会找这个名字,不要改类名。基本所有接口都在这个类里private[tsfile] class DefaultSource extends FileFormat with DataS...原创 2018-05-10 12:09:28 · 546 阅读 · 0 评论 -
SparkSQL读取Cassandra数据源
pom依赖 <dependency> <groupId>com.datastax.spark</groupId> <arti原创 2018-06-26 10:55:10 · 2385 阅读 · 4 评论