java.spark
awj321000
这个作者很懒,什么都没留下…
展开
-
Spark算子使用示例
1. 算子分类从大方向来说,Spark 算子大致可以分为以下两类Transformation:操作是延迟计算的,也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行,需要等到有 Action 操作的时候才会真正触发运算。Action:会触发 Spark 提交作业(Job),并将数据输出 Spark系统。从小方向来说,Spark 算子大致可以分为以下三类:转载 2017-08-29 15:18:39 · 363 阅读 · 0 评论 -
Spark Streaming
Spark Streaming基于Spark处理流式数据的框架,在MapReduce中,由于其分布式特性——所有数据需要读写磁盘、启动job耗时较大,难以满足时效性要求。而Streaming能够在Spark上生根发芽的原因是因为其内存特性、低延时的执行引擎和高速的执行效率。Streaming的原理是将Stream数据分成小的时间间隔(比如几秒),即将其离散化(Discretized)并转换成一转载 2017-07-13 11:13:02 · 348 阅读 · 0 评论 -
Spark-Spark Streaming例子整理(一)
aaa转载 2017-07-03 17:06:37 · 5447 阅读 · 0 评论 -
Kafka 配置说明
配置文件在config/server.properties下面的一些配置可能是你需要进行修改的。broker.id整数,建议根据ip区分 log.dirskafka存放消息文件的路径,默认/tmp/kafka-logsportbroker用于接收produ转载 2017-07-11 14:49:35 · 391 阅读 · 0 评论