![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark学习笔记
yixl
机器学习,数据挖掘
展开
-
spark2.x 读写cassandra
spark2.x 连接 cassandra 示例import org.apache.spark.SparkConfimport org.apache.spark.sql.{SaveMode, SparkSession}def main(args: Array[String]): Unit = {val conf = new SparkConf() .set("spark.cassandra.connection.host", "xxx.xxx.x.xxx,xxx.xxx.x.xxx,xx原创 2020-06-06 17:52:34 · 465 阅读 · 0 评论 -
RDD基础实例
RDD(弹性分布式数据集)作为spark的核心概念,RDD其实就是一个不可变的分布式的元素集合什么是弹性: 在任何实收都能进行重新计算,当保存RDD数据的一台机器挂了,spark还可以使用这种特性来重新计算出丢掉的分区,对用户也完全透明。每个RDD都被分为多个分区,这些分区运行在集群中的不同节点创建RDD的方式有多种,一是主要读取一个外部的数据集,二是在驱动器程序中的对象集合。创建出RD...原创 2019-01-07 23:24:51 · 280 阅读 · 0 评论 -
spark sql源码浅析
spark 源码简单分析sparksql 作为新增加的spark1.0所支持的lib库中唯一新增加的lib库,可见其重要地位。分析内容:spark sql执行流程;hive on spark 和 hive on hadoop 的比较;spark sql执行流程分析首先我们来分析下sql的通用执行过程:比如说: select n1,n2,n3 from tableN wher...原创 2019-02-16 17:12:58 · 363 阅读 · 0 评论 -
flume 监听linux下的文件夹下所有文件,通过spark批量读取数据
flume 监听linux下的文件夹下所有文件,并将文件内容存入到hdfs,生成多个以时间戳结尾的文件,通过spark批量读取数据。配置 flume-spooldir.conf ### define agent a3.sources = r3 a3.channels = c3 a3.sinks = k3 ### define sources a3.sources.r3.typ...原创 2019-03-09 20:12:51 · 522 阅读 · 0 评论