自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 资源 (2)
  • 收藏
  • 关注

原创 sqoop

sqoop: sql to hadoop 原理: sql取数据+mapreduce      按主键把列分成      元素据+数据: 元素据会在导入的时候自动生成到本地目录下      范围:jdbc接口      数据--warehouse-dir

2016-03-19 15:07:48 262

原创 hadoop 排序

全局排序 二次排序

2016-03-11 01:37:53 333

原创 Spark-Graph x

Graph x

2016-03-10 23:13:17 434

转载 Spark配置

spark基础组件运行配置参见: http://www.iteblog.com/archives/1143

2016-03-10 19:36:40 185

原创 scala 对比java 贴

1. trait  相当于Java的特征 2. for for(i0 until a.length) for(i=0;i 3. polymorphism: 类型和方法作为参数 def bubbleSort[A Ordered[A]](a:Array[A]){ for(i0 until a.length){ for(j0 until a.length){

2016-03-08 01:58:03 528

原创 hadoop

三大组件: GFS:   一次写,多次读 mapreduce:  BigTable: HBase

2016-03-05 10:25:38 249

原创 spark&scala集合

本帖重点关注scala以及兼容到spark平台上的数据集合,包括 Iterator  Seq  Array  Set   List   Tuple  RDD DStream 1. Iterator 慎用 此类型循环事特别注意,由于就是follow Iterator的概念,所以遍历一次后,往往再遍历就为空Iterator了,例如: val mydata = Sour

2016-03-04 03:20:03 345

原创 questions

1. val vector = data.map{line=> val record = line.split("::") match{case Array(user,product,rate,timestamp)=> (timestamp.toInt % 10 , Rating(user.toInt,product.toInt,rate.toDouble))

2016-03-03 22:45:21 255

原创 Spark RDD

def compute(split: Partition, context: TaskContext): Iterator[T] protected def getPartitions: Array[Partition] protected def getDependencies: Seq[Dependency[_]] = deps protected def ge

2016-03-02 21:14:27 286

原创 spark优化

1.  多次filter操作后,RDD中partition的数据量会越来越少,当很小接近于空的时候,会损耗性能      解决: 利用coalesce 或 repartition减少RDD中partition数量

2016-03-02 20:51:20 326

原创 spark 各组件研究

createTaskScheduler     case SPARK_REGEX(sparkUrl)         SparkDeploySchedulerBackend                     CoarseGrainedExecutorBackend                 case LaunchTask(data) (1)

2016-03-02 19:13:40 732

原创 spark MLlib

1.  kmeans             kmeans++  解决kmeans的初值点个数设置,点位置初始化问题,具体:                利用区间采样的方法=> 在一组数据中怎么随机选取值较大的数,例如选取若干个学习好的学生?                                     kmeans++步骤:                  从输入的数据点

2016-03-01 20:00:54 516

原创 spark streaming 编程

1.  DStream 找不到 reduceByKey                 http://www.68idc.cn/help/jiabenmake/qita/20150115172034.html

2016-03-01 05:19:46 244

原创 spark streaming & storm

spark streaming    针对批处理    吞吐量大    storm   针对一条记录  及时性较高   spark生态系统兼容性差

2016-03-01 04:54:06 196

原创 spark streaming

Streaming general  structure DStream 操作场景     无状态          只考虑一个RDD      状态          考虑一组RDDs的累加值     window         窗口长度          滑动长度 code structure: //一秒采样一次数据 val ssc = new

2016-03-01 04:02:20 392

pca人脸识别初学 资料

网上 收集的pca人脸识别文档适合初学者

2015-05-30

xml解析方式大全

xml解析方式包括w3c dom,sax,xpp,stax,vtd方式,其实还有jdom和xmlevent这样才够全面

2014-06-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除