- 博客(10)
- 资源 (15)
- 收藏
- 关注
转载 Kafka 和 Spark Streaming 构建实时数据处理系统
转载自https://www.ibm.com/developerworks/cn/opensource/os-cn-spark-practice2/引言在很多领域,如股市走向分析, 气象数据测控,网站用户行为分析等,由于数据产生快,实时性强,数据量大,所以很难统一采集并入库存储后再做处理,这便导致传统的数据处理架构不能满足需要。流计算的出现,就是为了更好地解决这类数据在处理过程中遇
2018-01-21 11:50:37 1346
转载 spark+kafka 小案例
转载自https://www.cnblogs.com/zhangXingSheng/p/6646879.html(1)下载kafka的jar包http://kafka.apache.org/downloadsspark2.1 支持kafka0.8.2.1以上的jar,我是spark2.0.2,下载的kafka_2.11-0.10.2.0(2)Consumer代码
2018-01-21 11:42:59 1419
转载 Kafka概念入门
转载自https://www.cnblogs.com/intsmaze/p/6386616.html序:如何保证kafka全局消息有序? 比如,有100条有序数据,生产者发送到kafka集群,kafka的分片有4个,可能的情况就是一个分片保存0-25,一个保存25-50......这样消息在kafka中存储是局部有序了。严格说,kafka是无法保证全局消息有序的,没有这个机制,只能局
2018-01-21 11:40:55 165
转载 SPARK 日志输出关键信息
来自https://www.cnblogs.com/liugh/p/6909531.html使用spark-submit提交local任务时,会输出很多Info信息:-------------------------------------------Time: 1495788633000 ms----------------------------------------
2018-01-21 11:37:42 3231
转载 Spark中的checkpoint作用与用法
转自http://blog.csdn.net/qq_20641565/article/details/76223002 Spark中的checkpoint作用与用法checkpoint的意思就是建立检查点,类似于快照,例如在spark计算里面 计算流程DAG特别长,服务器需要将整个DAG计算完成得出结果,但是如果在这很长的计算流程中突然中间算出的数据丢失了,spar
2018-01-21 11:35:48 960
转载 Spark集群三种部署模式的区别
目前Apache Spark支持三种分布式部署方式,分别是standalone、spark on mesos和 spark on YARN,其中,第一种类似于MapReduce 1.0所采用的模式,内部实现了容错性和资源管理,后两种则是未来发展的趋势,部分容错性和资源管理交由统一的资源管理系统完成:让Spark运行在一个通用的资源管理系统之上,这样可以与其他计算框架,比如MapReduce,公用一
2018-01-15 23:22:30 12747 3
转载 SCALA中的MAP与FLATMAP区别
摘自知乎总结:1. map会将每一条输入映射为一个新对象。{苹果,梨子}.map(去皮) = {去皮苹果,去皮梨子} 其中: “去皮”函数的类型为:A => B 2.flatMap包含两个操作:会将每一个输入对象输入映射为一个新集合,然后把这些新集合连成一个大集合。 {苹果,梨子}.flatMap(切碎) = {苹果碎片1,苹果碎片2,梨子碎片1,梨子碎片2} 其中: “切碎”函数的类型为
2018-01-14 16:24:05 10679
转载 Spark 入门实战之实例
转载:https://www.ibm.com/developerworks/cn/opensource/os-cn-spark-practice1/http://blog.csdn.net/gongpulin/article/details/51534754搭建开发环境安装 Scala IDE搭建 Scala 语言开发环境很容易,Scala IDE 官网 下载合
2018-01-03 23:15:38 2169
转载 scala通过mkString方法把一个集合转化为一个字符串
转自http://blog.csdn.net/qq_36330643/article/details/76489573Problem 如果你想要把集合元素转化为字符串,可能还会添加分隔符,前缀,后缀。Solution 使用mkString方法来打印一个集合内容,下面给一个简单的例子:scala> val a = Array("apple",
2018-01-01 21:52:36 879
转载 Spark笔记:RDD基本操作(上)
转自https://www.cnblogs.com/sharpxiajun/p/5506822.html本文主要是讲解spark里RDD的基础操作。RDD是spark特有的数据模型,谈到RDD就会提到什么弹性分布式数据集,什么有向无环图,本文暂时不去展开这些高深概念,在阅读本文时候,大家可以就把RDD当作一个数组,这样的理解对我们学习RDD的API是非常有帮助的。本文所有示例代码都是使用s
2018-01-01 21:46:26 235
强跟踪滤波程序
2015-06-05
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人