![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
david_zhang228
IT 屌丝一枚,09年研究生毕业于武汉关山口IT学校,IT业混迹多年,最近想把平时的积累的资料写在blog上, 以便将来查阅。
展开
-
spark streaming 中对DStream 的两个操作
在spark streaming中Dstream (一种streaming type RDDs),有两种操作transformations 和 output:transformations:map(func) 对每一个元素执行func方法flatMap(func) 类似map函数,但是可以map到0原创 2017-02-09 16:25:47 · 2475 阅读 · 0 评论 -
spark 中 rdd to dataframe 问题
在spark streaming 过程中遇到数据不对的地方,最有check 到时我们RDD到dataframe 出现了问题 rowRdd = rdd.flatMap(build_data_row) statsRdd = rowRdd.map(map_to_id) dfstats = sqlContext.createDataFrame(statsRdd, schema=docSh原创 2017-03-02 13:54:24 · 873 阅读 · 0 评论 -
spark 的实现简介
看到一篇关于spark 的实现的基本原理,detail 不是太多,但是讲的很好的, mark 一下https://www.kancloud.cn/kancloud/spark-internals/45240转载 2017-05-04 15:52:16 · 238 阅读 · 0 评论 -
Spark integration ElasticSearch
用Spark Streaming 从AWS 的kinesis (类似Kafka) 中读取streaming data, 然后通过spark 计算框架处理之后write into ElasticSearch , spark 写:数据到elasticsearch 有两种方式, 下面是integration 的过程:需要的packages org.elasticsearch:elasticsearc原创 2017-06-08 17:30:07 · 395 阅读 · 0 评论 -
spark taskset submit and running
spark taskset submit and runningspark RDD 在执行一个action 的时候就会trigger sparkcontext 的RunJob 接口, (SparkContext 在初始化的时候会创建 DAGSchedule) 这个就会直接去invoke DAGSchedule.run--> submit, 然后会直接进入DAGSchedulerEventPro原创 2018-01-18 20:31:17 · 211 阅读 · 0 评论