spark
wangfutai91
钩深索隐,卓荦为杰。
展开
-
sparksql文件的读写-json和parquet
//1.读取一个json文本val df1= ssc.read.json("E:\\sparkdata\\person.json")//2.读取数据,在format方法中指定类型val df2=ssc.read.format("json").load("E:\\sparkdata\\person.json")val df3=ssc.read.format("parquet").lo...原创 2019-03-01 19:53:36 · 581 阅读 · 0 评论 -
sparksql--hive
//与hive表进行连接: // 1.一种通过conf.set 设置或直接将hive配置hive-site.xml文件拷贝工程 // 2.加载mysql驱动 //从hive中读取数据,驱动不是SQLContext,而是HiveContext val hsc=new HiveContext(sc) //执行hql语句 hsc.sql("select * from hive.perso...原创 2019-03-01 19:54:07 · 165 阅读 · 0 评论 -
sparksql--JDBC
val mapOptitons=Map[String,String]( ("url","jdbc:mysql://wangfutai:3306/hive"), ("user","hive"), ("password","hive"), ("dbtable","apptab") ) //通过sparkSql,原创 2019-03-01 19:54:35 · 184 阅读 · 0 评论 -
sparksql--json/parquet/hive/jdbc/rdd结合
/** * json id name t1 * parquet id age t2 * rdd id sex t3 * hive id addr t4 * mysql id hobby t5 * * 通过spark sql 把五个临时表数据关联 * * id name age sex addr hobby * 输出到本地...原创 2019-03-01 19:55:19 · 312 阅读 · 0 评论 -
sparksql--hbase
val conf = new SparkConf() conf.setMaster("local") conf.setAppName("patition") val sc = new SparkContext(conf) //hbase val hbaseConf = HBaseConfiguration.create() //设置zooKeeper集群地址,也可以通过...原创 2019-03-01 19:55:45 · 127 阅读 · 0 评论 -
宽依赖和窄依赖
宽依赖与窄依赖窄依赖是指父RDD的每个分区只被子RDD的一个分区所使用,子RDD分区通常对应常数个父RDD分区(O(1),与数据规模无关) 相应的,宽依赖是指父RDD的每个分区都可能被多个子RDD分区所使用,子RDD分区通常对应所有的父RDD分区(O(n),与数据规模有关)宽依赖和窄依赖如下图所示:相比于宽依赖,窄依赖对优化很有利 ,主要基于以下两点: 宽依赖往往对应着shu...原创 2019-03-19 15:43:49 · 1594 阅读 · 0 评论 -
累加器(Accumulator)
public class AccumulatorDemo { public static void main(String[]args){ System.setProperty("hadoop.home.dir", "E:\\software\\bigdate\\hadoop-2.6.0-cdh5.15.0\\hadoop-2.6.0-cdh5.15.0"); ...原创 2019-03-08 12:33:42 · 2168 阅读 · 0 评论 -
spark面试问题收集
spark面试问题1、spark中的RDD是什么,有哪些特性RDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。 Dataset:就是一个集合,用于存放数据的 Distributed:分布式,可以并行在集群计算 Resilient:表示弹性的 弹性表示...转载 2019-03-23 22:20:06 · 211 阅读 · 0 评论 -
sparkSQL实战详解
1、sparkSQL层级 当我们想用sparkSQL来解决我们的需求时,其实说简单也简单,就经历了三步:读入数据 -> 对数据进行处理 -> 写入最后结果,那么这三个步骤用的主要类其实就三个:读入数据和写入最后结果用到两个类HiveContext和SQLContext,对数据进行处理用到的是DataFrame类,此类是你把数据从外部读入到内存后,数据在内存中进行存储的基本...转载 2019-05-10 22:36:26 · 275 阅读 · 0 评论