yixl-CSDN博客

原创 flume 监听linux下的文件夹下所有文件，通过spark批量读取数据

flume 监听linux下的文件夹下所有文件，并将文件内容存入到hdfs，生成多个以时间戳结尾的文件，通过spark批量读取数据。配置 flume-spooldir.conf ### define agent a3.sources = r3 a3.channels = c3 a3.sinks = k3 ### define sources a3.sources.r3.typ...

2019-03-09 20:12:51 546

原创 spark2.x 读写cassandra

spark2.x 连接 cassandra 示例import org.apache.spark.SparkConfimport org.apache.spark.sql.{SaveMode, SparkSession}def main(args: Array[String]): Unit = {val conf = new SparkConf() .set("spark.cassandra.connection.host", "xxx.xxx.x.xxx,xxx.xxx.x.xxx,xx

2020-06-06 17:52:34 496

原创 spark sql源码浅析

spark 源码简单分析sparksql 作为新增加的spark1.0所支持的lib库中唯一新增加的lib库，可见其重要地位。分析内容：spark sql执行流程;hive on spark 和 hive on hadoop 的比较；spark sql执行流程分析首先我们来分析下sql的通用执行过程：比如说： select n1,n2,n3 from tableN wher...

2019-02-16 17:12:58 397

原创 RDD基础实例

RDD（弹性分布式数据集）作为spark的核心概念，RDD其实就是一个不可变的分布式的元素集合什么是弹性：在任何实收都能进行重新计算，当保存RDD数据的一台机器挂了，spark还可以使用这种特性来重新计算出丢掉的分区，对用户也完全透明。每个RDD都被分为多个分区，这些分区运行在集群中的不同节点创建RDD的方式有多种，一是主要读取一个外部的数据集，二是在驱动器程序中的对象集合。创建出RD...

2019-01-07 23:24:51 297

原创 scala基本操作分解实战

scala基本操作分解scala> import scala.io.Sourceimport scala.io.Sourcescala> val lines = Source.fromFile("./TestFile.txt").getLines().toListlines: List[String] = List(Preface, “The Forsyte Saga” was...

2019-01-06 21:27:54 331

转载大数据分析常见算法

大数据分析主要依靠机器学习和大规模计算。机器学习包括监督学习、非监督学习、强化学习等，而监督学习又包括分类学习、回归学习、排序学习、匹配学习等。分类是最常见的机器学习应用问题，比如垃圾邮件过滤、人脸检测、用户画像、文本情感分析、网页归类等，本质上都是分类问题。分类学习也是机器学习领域，研究最彻底、使用最广泛的一个分支。数据分析18大算法实现https://github.com/linyiqun...

2019-01-06 20:31:32 12686

原创 RDD简介，spark-shell，spark-submit提交任务简单示例

RDD简介，spark-shell，spark-submit提交任务简单示例spark RDD简介弹性分布式数据集RDD是Spark框架中的核心概念。可以将RDD视作数据库中的一张表。其中可以保存任何类型的数据。Spark将数据存储在不同分区上的RDD之中。RDD可以帮助重新安排计算并优化数据处理过程。RDD具有容错性，因为RDD知道如何重新创建和重新计算数据集。RDD是不可变的。你...

2019-01-06 20:23:15 2134 1

qq_31407011的博客