- 博客(7)
- 资源 (9)
- 收藏
- 关注
原创 一些收藏网站
https://github.com/endymecy/spark-ml-source-analysishttp://lxw1234.com/archives/2016/01/605.htmhttps://www.iteblog.com/
2016-10-31 17:29:16 270
转载 在Spark中使用Pivot重塑数据
转:http://geek.csdn.net/news/detail/57030语法在为透视操作进行pull请求的过程中,我进行了许多相关研究,其中一项便是对其它优秀工具的语法进行比较,目前透视语法格式多种多样,Spark 透视功能最主要的两个竞争对手是pandas(Python语言)和reshape2(R语言)。 我们提出Spark透视操作自有的语法格式,它能够与DataFrame上现有其它聚合
2016-10-31 16:28:30 10257
原创 spark 问题
1: conf.set(“spark.kryoserializer.buffer.max”,”100m”) 2:testDataRdd.map(p =>Person (p._1,p._2,sameModel.predict(p._3).toInt)).toDF()这样写占容易 java.lang.OutOfMemoryError: Java heap space,改成下面这样sameModel.
2016-10-31 11:58:35 342
原创 spark mllib 归一化
val testdata=sql("select * from test").map{ line => line.toSeq.map {_.toString}.toArray }.map{ line =>(line(0),line(1),Vectors.dense(line.drop(1).drop(1).map(_.toDouble)))}.toDF("id","name","fea
2016-10-26 09:26:14 3489
转载 region分裂策略
0.94版本之前 分裂的策略采用ConstantSizeRegionSplitPolicy的,在这个情况下只要将配置文件中的hbase.hregion.max.filesize设置为一个超大值则可以将自动分裂关闭。 0.94版本之后 默认策略是IncreasingToUpperBoundRegionSplitPolicy,这个策略是当在一个RS中同一个表的region数量小于9时,如果storef
2016-10-10 17:59:37 2025
原创 spark mllib 实战
package com.userportraitimport org.apache.spark.mllib.clustering.BisectingKMeansimport org.apache.spark.mllib.linalg.Vectorsimport org.apache.spark.sql.SaveModeimport org.apache.spark.sql.hive.HiveC
2016-10-04 12:08:23 1271
原创 spark streaming kafka 到hive
package com.kafkaimport java.text.SimpleDateFormatimport java.utilimport java.util.Dateimport org.apache.spark.sql.SaveModeimport org.apache.spark.sql.hive.HiveContextimport org.apache.spark.strea
2016-10-04 12:04:43 8670
KafkaOffsetMonitor-assembly-0.2.0
2016-01-22
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人