Spark
myCity_NJ
这个作者很懒,什么都没留下…
展开
-
Spark学习__关键词记录(日更)
Spark四种操作 : 创建、转换(惰性操作:只是定义了新的RDDs,并未立即执行)、控制(持久化)、行动“血统”不需要昂贵的“复制”代价检查点SparkSQL查询出来的数据处理:val df = sqlContext.sql("select * from table")// 这里df.rdd为RDD[org.apache.spark.sql.Row]格式val rdd = df.rdd.ma...原创 2018-02-27 15:51:27 · 162 阅读 · 0 评论 -
一些博文
https://www.zhihu.com/question/23079001转载 2018-03-09 14:23:45 · 171 阅读 · 0 评论 -
Spark的一些API
1、RDD PairRDD ShuffledRDDreduceByKeymapPartitionsWithIndexaggregateaggregateByKeycombineByKey原创 2018-03-05 23:16:28 · 496 阅读 · 0 评论 -
bug记录
1、do not support vector type org.apache.spark.mllib.linalg.SparseVectorhttps://stackoverflow.com/questions/41319904/spark-python-standard-scaler-error-do-not-support-sparsevector原创 2018-03-22 19:58:51 · 188 阅读 · 0 评论 -
每天学点Spark源码 -- aggregate
1、aggregate /** * Aggregate the elements of each partition, and then the results for all the partitions, using * given combine functions and a neutral "zero value". This function can return a d...原创 2018-03-26 11:28:15 · 223 阅读 · 0 评论