- 博客(15)
- 资源 (2)
- 收藏
- 关注
原创 sqoop
sqoop: sql to hadoop 原理: sql取数据+mapreduce 按主键把列分成 元素据+数据: 元素据会在导入的时候自动生成到本地目录下 范围:jdbc接口 数据--warehouse-dir
2016-03-19 15:07:48 262
原创 scala 对比java 贴
1. trait 相当于Java的特征 2. for for(i0 until a.length) for(i=0;i 3. polymorphism: 类型和方法作为参数 def bubbleSort[A Ordered[A]](a:Array[A]){ for(i0 until a.length){ for(j0 until a.length){
2016-03-08 01:58:03 528
原创 spark&scala集合
本帖重点关注scala以及兼容到spark平台上的数据集合,包括 Iterator Seq Array Set List Tuple RDD DStream 1. Iterator 慎用 此类型循环事特别注意,由于就是follow Iterator的概念,所以遍历一次后,往往再遍历就为空Iterator了,例如: val mydata = Sour
2016-03-04 03:20:03 345
原创 questions
1. val vector = data.map{line=> val record = line.split("::") match{case Array(user,product,rate,timestamp)=> (timestamp.toInt % 10 , Rating(user.toInt,product.toInt,rate.toDouble))
2016-03-03 22:45:21 255
原创 Spark RDD
def compute(split: Partition, context: TaskContext): Iterator[T] protected def getPartitions: Array[Partition] protected def getDependencies: Seq[Dependency[_]] = deps protected def ge
2016-03-02 21:14:27 286
原创 spark优化
1. 多次filter操作后,RDD中partition的数据量会越来越少,当很小接近于空的时候,会损耗性能 解决: 利用coalesce 或 repartition减少RDD中partition数量
2016-03-02 20:51:20 326
原创 spark 各组件研究
createTaskScheduler case SPARK_REGEX(sparkUrl) SparkDeploySchedulerBackend CoarseGrainedExecutorBackend case LaunchTask(data) (1)
2016-03-02 19:13:40 732
原创 spark MLlib
1. kmeans kmeans++ 解决kmeans的初值点个数设置,点位置初始化问题,具体: 利用区间采样的方法=> 在一组数据中怎么随机选取值较大的数,例如选取若干个学习好的学生? kmeans++步骤: 从输入的数据点
2016-03-01 20:00:54 516
原创 spark streaming 编程
1. DStream 找不到 reduceByKey http://www.68idc.cn/help/jiabenmake/qita/20150115172034.html
2016-03-01 05:19:46 244
原创 spark streaming & storm
spark streaming 针对批处理 吞吐量大 storm 针对一条记录 及时性较高 spark生态系统兼容性差
2016-03-01 04:54:06 196
原创 spark streaming
Streaming general structure DStream 操作场景 无状态 只考虑一个RDD 状态 考虑一组RDDs的累加值 window 窗口长度 滑动长度 code structure: //一秒采样一次数据 val ssc = new
2016-03-01 04:02:20 392
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人