自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 flume 监听linux下的文件夹下所有文件,通过spark批量读取数据

flume 监听linux下的文件夹下所有文件,并将文件内容存入到hdfs,生成多个以时间戳结尾的文件,通过spark批量读取数据。配置 flume-spooldir.conf ### define agent a3.sources = r3 a3.channels = c3 a3.sinks = k3 ### define sources a3.sources.r3.typ...

2019-03-09 20:12:51 523

原创 spark2.x 读写cassandra

spark2.x 连接 cassandra 示例import org.apache.spark.SparkConfimport org.apache.spark.sql.{SaveMode, SparkSession}def main(args: Array[String]): Unit = {val conf = new SparkConf() .set("spark.cassandra.connection.host", "xxx.xxx.x.xxx,xxx.xxx.x.xxx,xx

2020-06-06 17:52:34 466

原创 spark sql源码浅析

spark 源码简单分析sparksql 作为新增加的spark1.0所支持的lib库中唯一新增加的lib库,可见其重要地位。分析内容:spark sql执行流程;hive on spark 和 hive on hadoop 的比较;spark sql执行流程分析首先我们来分析下sql的通用执行过程:比如说: select n1,n2,n3 from tableN wher...

2019-02-16 17:12:58 365

原创 RDD基础实例

RDD(弹性分布式数据集)作为spark的核心概念,RDD其实就是一个不可变的分布式的元素集合什么是弹性: 在任何实收都能进行重新计算,当保存RDD数据的一台机器挂了,spark还可以使用这种特性来重新计算出丢掉的分区,对用户也完全透明。每个RDD都被分为多个分区,这些分区运行在集群中的不同节点创建RDD的方式有多种,一是主要读取一个外部的数据集,二是在驱动器程序中的对象集合。创建出RD...

2019-01-07 23:24:51 280

原创 scala基本操作分解实战

scala基本操作分解scala> import scala.io.Sourceimport scala.io.Sourcescala> val lines = Source.fromFile("./TestFile.txt").getLines().toListlines: List[String] = List(Preface, “The Forsyte Saga” was...

2019-01-06 21:27:54 321

转载 大数据分析常见算法

大数据分析主要依靠机器学习和大规模计算。机器学习包括监督学习、非监督学习、强化学习等,而监督学习又包括分类学习、回归学习、排序学习、匹配学习等。分类是最常见的机器学习应用问题,比如垃圾邮件过滤、人脸检测、用户画像、文本情感分析、网页归类等,本质上都是分类问题。分类学习也是机器学习领域,研究最彻底、使用最广泛的一个分支。数据分析18大算法实现https://github.com/linyiqun...

2019-01-06 20:31:32 12503

原创 RDD简介,spark-shell,spark-submit提交任务简单示例

RDD简介,spark-shell,spark-submit提交任务简单示例spark RDD简介弹性分布式数据集RDD是Spark框架中的核心概念。可以将RDD视作数据库中的一张表。其中可以保存任何类型的数据。Spark将数据存储在不同分区上的RDD之中。RDD可以帮助重新安排计算并优化数据处理过程。RDD具有容错性,因为RDD知道如何重新创建和重新计算数据集。RDD是不可变的。你...

2019-01-06 20:23:15 2090 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除