2016年10月_mllhxn

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创一些收藏网站

https://github.com/endymecy/spark-ml-source-analysishttp://lxw1234.com/archives/2016/01/605.htmhttps://www.iteblog.com/

2016-10-31 17:29:16 270

转载在Spark中使用Pivot重塑数据

转:http://geek.csdn.net/news/detail/57030语法在为透视操作进行pull请求的过程中，我进行了许多相关研究，其中一项便是对其它优秀工具的语法进行比较，目前透视语法格式多种多样，Spark 透视功能最主要的两个竞争对手是pandas（Python语言）和reshape2（R语言）。我们提出Spark透视操作自有的语法格式，它能够与DataFrame上现有其它聚合

2016-10-31 16:28:30 10257

原创 spark 问题

1： conf.set(“spark.kryoserializer.buffer.max”,”100m”) 2：testDataRdd.map(p =>Person (p._1,p._2,sameModel.predict(p._3).toInt)).toDF()这样写占容易 java.lang.OutOfMemoryError: Java heap space，改成下面这样sameModel.

2016-10-31 11:58:35 342

原创 spark mllib 归一化

val testdata=sql("select * from test").map{ line => line.toSeq.map {_.toString}.toArray }.map{ line =>(line(0),line(1),Vectors.dense(line.drop(1).drop(1).map(_.toDouble)))}.toDF("id","name","fea

2016-10-26 09:26:14 3489

转载 region分裂策略

0.94版本之前分裂的策略采用ConstantSizeRegionSplitPolicy的，在这个情况下只要将配置文件中的hbase.hregion.max.filesize设置为一个超大值则可以将自动分裂关闭。 0.94版本之后默认策略是IncreasingToUpperBoundRegionSplitPolicy，这个策略是当在一个RS中同一个表的region数量小于9时，如果storef

2016-10-10 17:59:37 2025

原创 spark mllib 实战

package com.userportraitimport org.apache.spark.mllib.clustering.BisectingKMeansimport org.apache.spark.mllib.linalg.Vectorsimport org.apache.spark.sql.SaveModeimport org.apache.spark.sql.hive.HiveC

2016-10-04 12:08:23 1271

原创 spark streaming kafka 到hive

package com.kafkaimport java.text.SimpleDateFormatimport java.utilimport java.util.Dateimport org.apache.spark.sql.SaveModeimport org.apache.spark.sql.hive.HiveContextimport org.apache.spark.strea

2016-10-04 12:04:43 8670

idea 使用快捷键.docx

2016-01-22

CentOS_Ganglia安装.doc

亲测安装成功，CentOS_Ganglia安装.doc，CentOS_Ganglia安装.doc

2016-01-22

matplotlib-1.4.0.win-amd64-py2.7.exe

2016-01-22

numpy-MKL-1.8.0.win-amd64-py2.7.exe

win7完美运行，win10出问题的话python path需要自己手配，而且要管理员权限运行

2016-01-22

KafkaOffsetMonitor-assembly-0.2.0

亲测可用哦 java -jar KafkaOffsetMonitor-assembly-0.2.0.jar \ com.quantifind.kafka.offsetapp.OffsetGetterWeb \ --zk xxx \ --port 8086 \ --refresh 10.seconds \ --retain 7.days &

2016-01-22

ext-2.2.zip

亲测可用 ext-2.2.zip，用于oozie安装的插件，

2016-01-22

storm实时代码

storm -kafka 存储到hbase中

2015-04-15

storm 代码

Storm Real-time Processing Cookbook

2014-08-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人