- 博客(7)
- 收藏
- 关注
原创 flume 监听linux下的文件夹下所有文件,通过spark批量读取数据
flume 监听linux下的文件夹下所有文件,并将文件内容存入到hdfs,生成多个以时间戳结尾的文件,通过spark批量读取数据。配置 flume-spooldir.conf ### define agent a3.sources = r3 a3.channels = c3 a3.sinks = k3 ### define sources a3.sources.r3.typ...
2019-03-09 20:12:51 546
原创 spark2.x 读写cassandra
spark2.x 连接 cassandra 示例import org.apache.spark.SparkConfimport org.apache.spark.sql.{SaveMode, SparkSession}def main(args: Array[String]): Unit = {val conf = new SparkConf() .set("spark.cassandra.connection.host", "xxx.xxx.x.xxx,xxx.xxx.x.xxx,xx
2020-06-06 17:52:34 496
原创 spark sql源码浅析
spark 源码简单分析sparksql 作为新增加的spark1.0所支持的lib库中唯一新增加的lib库,可见其重要地位。分析内容:spark sql执行流程;hive on spark 和 hive on hadoop 的比较;spark sql执行流程分析首先我们来分析下sql的通用执行过程:比如说: select n1,n2,n3 from tableN wher...
2019-02-16 17:12:58 397
原创 RDD基础实例
RDD(弹性分布式数据集)作为spark的核心概念,RDD其实就是一个不可变的分布式的元素集合什么是弹性: 在任何实收都能进行重新计算,当保存RDD数据的一台机器挂了,spark还可以使用这种特性来重新计算出丢掉的分区,对用户也完全透明。每个RDD都被分为多个分区,这些分区运行在集群中的不同节点创建RDD的方式有多种,一是主要读取一个外部的数据集,二是在驱动器程序中的对象集合。创建出RD...
2019-01-07 23:24:51 297
原创 scala基本操作分解实战
scala基本操作分解scala> import scala.io.Sourceimport scala.io.Sourcescala> val lines = Source.fromFile("./TestFile.txt").getLines().toListlines: List[String] = List(Preface, “The Forsyte Saga” was...
2019-01-06 21:27:54 331
转载 大数据分析常见算法
大数据分析主要依靠机器学习和大规模计算。机器学习包括监督学习、非监督学习、强化学习等,而监督学习又包括分类学习、回归学习、排序学习、匹配学习等。分类是最常见的机器学习应用问题,比如垃圾邮件过滤、人脸检测、用户画像、文本情感分析、网页归类等,本质上都是分类问题。分类学习也是机器学习领域,研究最彻底、使用最广泛的一个分支。数据分析18大算法实现https://github.com/linyiqun...
2019-01-06 20:31:32 12686
原创 RDD简介,spark-shell,spark-submit提交任务简单示例
RDD简介,spark-shell,spark-submit提交任务简单示例spark RDD简介弹性分布式数据集RDD是Spark框架中的核心概念。可以将RDD视作数据库中的一张表。其中可以保存任何类型的数据。Spark将数据存储在不同分区上的RDD之中。RDD可以帮助重新安排计算并优化数据处理过程。RDD具有容错性,因为RDD知道如何重新创建和重新计算数据集。RDD是不可变的。你...
2019-01-06 20:23:15 2134 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人