2018年01月_songhao22

10月 09月 06月 03月 02月 01月

转载 Kafka 和 Spark Streaming 构建实时数据处理系统

转载自https://www.ibm.com/developerworks/cn/opensource/os-cn-spark-practice2/引言在很多领域，如股市走向分析, 气象数据测控，网站用户行为分析等，由于数据产生快，实时性强，数据量大，所以很难统一采集并入库存储后再做处理，这便导致传统的数据处理架构不能满足需要。流计算的出现，就是为了更好地解决这类数据在处理过程中遇

2018-01-21 11:50:37 1346

转载 spark+kafka 小案例

转载自https://www.cnblogs.com/zhangXingSheng/p/6646879.html（1）下载kafka的jar包http://kafka.apache.org/downloadsspark2.1 支持kafka0.8.2.1以上的jar,我是spark2.0.2,下载的kafka_2.11-0.10.2.0（2）Consumer代码

2018-01-21 11:42:59 1419

转载 Kafka概念入门

转载自https://www.cnblogs.com/intsmaze/p/6386616.html序：如何保证kafka全局消息有序？　　比如，有100条有序数据，生产者发送到kafka集群，kafka的分片有4个，可能的情况就是一个分片保存0-25，一个保存25-50......这样消息在kafka中存储是局部有序了。严格说，kafka是无法保证全局消息有序的，没有这个机制，只能局

2018-01-21 11:40:55 165

转载 SPARK 日志输出关键信息

来自https://www.cnblogs.com/liugh/p/6909531.html使用spark-submit提交local任务时，会输出很多Info信息：-------------------------------------------Time: 1495788633000 ms----------------------------------------

2018-01-21 11:37:42 3231

转载 Spark中的checkpoint作用与用法

转自http://blog.csdn.net/qq_20641565/article/details/76223002 Spark中的checkpoint作用与用法checkpoint的意思就是建立检查点,类似于快照,例如在spark计算里面计算流程DAG特别长,服务器需要将整个DAG计算完成得出结果,但是如果在这很长的计算流程中突然中间算出的数据丢失了,spar

2018-01-21 11:35:48 960

目前Apache Spark支持三种分布式部署方式，分别是standalone、spark on mesos和 spark on YARN，其中，第一种类似于MapReduce 1.0所采用的模式，内部实现了容错性和资源管理，后两种则是未来发展的趋势，部分容错性和资源管理交由统一的资源管理系统完成：让Spark运行在一个通用的资源管理系统之上，这样可以与其他计算框架，比如MapReduce，公用一

2018-01-15 23:22:30 12747 3

转载 SCALA中的MAP与FLATMAP区别

摘自知乎总结：1. map会将每一条输入映射为一个新对象。{苹果，梨子}.map(去皮） = {去皮苹果，去皮梨子} 其中： “去皮”函数的类型为：A => B 2.flatMap包含两个操作：会将每一个输入对象输入映射为一个新集合，然后把这些新集合连成一个大集合。 {苹果，梨子}.flatMap(切碎) = {苹果碎片1，苹果碎片2，梨子碎片1，梨子碎片2} 其中： “切碎”函数的类型为

2018-01-14 16:24:05 10679

转载 Spark 入门实战之实例

转载：https://www.ibm.com/developerworks/cn/opensource/os-cn-spark-practice1/http://blog.csdn.net/gongpulin/article/details/51534754搭建开发环境安装 Scala IDE搭建 Scala 语言开发环境很容易，Scala IDE 官网下载合

2018-01-03 23:15:38 2169

转载 scala通过mkString方法把一个集合转化为一个字符串

转自http://blog.csdn.net/qq_36330643/article/details/76489573Problem 如果你想要把集合元素转化为字符串，可能还会添加分隔符，前缀，后缀。Solution 使用mkString方法来打印一个集合内容，下面给一个简单的例子：scala> val a = Array("apple",

2018-01-01 21:52:36 879

转载 Spark笔记：RDD基本操作（上）

转自https://www.cnblogs.com/sharpxiajun/p/5506822.html本文主要是讲解spark里RDD的基础操作。RDD是spark特有的数据模型，谈到RDD就会提到什么弹性分布式数据集，什么有向无环图，本文暂时不去展开这些高深概念，在阅读本文时候，大家可以就把RDD当作一个数组，这样的理解对我们学习RDD的API是非常有帮助的。本文所有示例代码都是使用s

2018-01-01 21:46:26 235