自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 资源 (9)
  • 收藏
  • 关注

原创 一些收藏网站

https://github.com/endymecy/spark-ml-source-analysishttp://lxw1234.com/archives/2016/01/605.htmhttps://www.iteblog.com/

2016-10-31 17:29:16 270

转载 在Spark中使用Pivot重塑数据

转:http://geek.csdn.net/news/detail/57030语法在为透视操作进行pull请求的过程中,我进行了许多相关研究,其中一项便是对其它优秀工具的语法进行比较,目前透视语法格式多种多样,Spark 透视功能最主要的两个竞争对手是pandas(Python语言)和reshape2(R语言)。 我们提出Spark透视操作自有的语法格式,它能够与DataFrame上现有其它聚合

2016-10-31 16:28:30 10257

原创 spark 问题

1: conf.set(“spark.kryoserializer.buffer.max”,”100m”) 2:testDataRdd.map(p =>Person (p._1,p._2,sameModel.predict(p._3).toInt)).toDF()这样写占容易 java.lang.OutOfMemoryError: Java heap space,改成下面这样sameModel.

2016-10-31 11:58:35 342

原创 spark mllib 归一化

val testdata=sql("select * from test").map{ line => line.toSeq.map {_.toString}.toArray }.map{ line =>(line(0),line(1),Vectors.dense(line.drop(1).drop(1).map(_.toDouble)))}.toDF("id","name","fea

2016-10-26 09:26:14 3489

转载 region分裂策略

0.94版本之前 分裂的策略采用ConstantSizeRegionSplitPolicy的,在这个情况下只要将配置文件中的hbase.hregion.max.filesize设置为一个超大值则可以将自动分裂关闭。 0.94版本之后 默认策略是IncreasingToUpperBoundRegionSplitPolicy,这个策略是当在一个RS中同一个表的region数量小于9时,如果storef

2016-10-10 17:59:37 2025

原创 spark mllib 实战

package com.userportraitimport org.apache.spark.mllib.clustering.BisectingKMeansimport org.apache.spark.mllib.linalg.Vectorsimport org.apache.spark.sql.SaveModeimport org.apache.spark.sql.hive.HiveC

2016-10-04 12:08:23 1271

原创 spark streaming kafka 到hive

package com.kafkaimport java.text.SimpleDateFormatimport java.utilimport java.util.Dateimport org.apache.spark.sql.SaveModeimport org.apache.spark.sql.hive.HiveContextimport org.apache.spark.strea

2016-10-04 12:04:43 8670

idea 使用快捷键.docx

idea 使用快捷键.docx

2016-01-22

CentOS_Ganglia安装.doc

亲测 安装成功 ,CentOS_Ganglia安装.doc,CentOS_Ganglia安装.doc

2016-01-22

matplotlib-1.4.0.win-amd64-py2.7.exe

matplotlib-1.4.0.win-amd64-py2.7.exe

2016-01-22

numpy-MKL-1.8.0.win-amd64-py2.7.exe

win7完美运行,win10出问题的话python path需要自己手配,而且要管理员权限运行

2016-01-22

KafkaOffsetMonitor-assembly-0.2.0

亲测可用哦 java -jar KafkaOffsetMonitor-assembly-0.2.0.jar \ com.quantifind.kafka.offsetapp.OffsetGetterWeb \ --zk xxx \ --port 8086 \ --refresh 10.seconds \ --retain 7.days &

2016-01-22

ext-2.2.zip

亲测可用 ext-2.2.zip,用于oozie安装的插件,

2016-01-22

storm实时代码

storm -kafka 存储到hbase中

2015-04-15

storm 代码

Storm Real-time Processing Cookbook

2014-08-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除