2016年03月_lfz_carlos

06月 05月 04月 03月 02月

原创 sqoop

sqoop: sql to hadoop 原理: sql取数据+mapreduce 按主键把列分成元素据+数据: 元素据会在导入的时候自动生成到本地目录下范围：jdbc接口数据--warehouse-dir

2016-03-19 15:07:48 262

原创 hadoop 排序

全局排序二次排序

2016-03-11 01:37:53 333

原创 Spark-Graph x

Graph x

2016-03-10 23:13:17 434

转载 Spark配置

spark基础组件运行配置参见： http://www.iteblog.com/archives/1143

2016-03-10 19:36:40 185

原创 scala 对比java 贴

1. trait 相当于Java的特征 2. for for(i0 until a.length) for(i=0;i 3. polymorphism：类型和方法作为参数 def bubbleSort[A Ordered[A]](a:Array[A]){ for(i0 until a.length){ for(j0 until a.length){

2016-03-08 01:58:03 528

原创 hadoop

三大组件： GFS: 一次写，多次读 mapreduce： BigTable： HBase

2016-03-05 10:25:38 249

原创 spark&scala集合

本帖重点关注scala以及兼容到spark平台上的数据集合，包括 Iterator Seq Array Set List Tuple RDD DStream 1. Iterator 慎用此类型循环事特别注意，由于就是follow Iterator的概念，所以遍历一次后，往往再遍历就为空Iterator了，例如： val mydata = Sour

2016-03-04 03:20:03 345

原创 questions

1. val vector = data.map{line=> val record = line.split("::") match{case Array(user,product,rate,timestamp)=> (timestamp.toInt % 10 , Rating(user.toInt,product.toInt,rate.toDouble))

2016-03-03 22:45:21 255

原创 Spark RDD

def compute(split: Partition, context: TaskContext): Iterator[T] protected def getPartitions: Array[Partition] protected def getDependencies: Seq[Dependency[_]] = deps protected def ge

2016-03-02 21:14:27 286

原创 spark优化

1. 多次filter操作后，RDD中partition的数据量会越来越少，当很小接近于空的时候，会损耗性能解决：利用coalesce 或 repartition减少RDD中partition数量

2016-03-02 20:51:20 326

原创 spark 各组件研究

createTaskScheduler case SPARK_REGEX(sparkUrl) SparkDeploySchedulerBackend CoarseGrainedExecutorBackend case LaunchTask(data) (1)

2016-03-02 19:13:40 732

原创 spark MLlib

1. kmeans kmeans++ 解决kmeans的初值点个数设置，点位置初始化问题，具体：利用区间采样的方法=> 在一组数据中怎么随机选取值较大的数，例如选取若干个学习好的学生？ kmeans++步骤：从输入的数据点

2016-03-01 20:00:54 516

原创 spark streaming 编程

1. DStream 找不到 reduceByKey http://www.68idc.cn/help/jiabenmake/qita/20150115172034.html

2016-03-01 05:19:46 244

原创 spark streaming & storm

spark streaming 针对批处理吞吐量大 storm 针对一条记录及时性较高 spark生态系统兼容性差

2016-03-01 04:54:06 196

原创 spark streaming

Streaming general structure DStream 操作场景无状态只考虑一个RDD 状态考虑一组RDDs的累加值 window 窗口长度滑动长度 code structure： //一秒采样一次数据 val ssc = new

2016-03-01 04:02:20 392

pca人脸识别初学资料

网上收集的pca人脸识别文档适合初学者

2015-05-30

xml解析方式大全

xml解析方式包括w3c dom,sax,xpp,stax,vtd方式，其实还有jdom和xmlevent这样才够全面

2014-06-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

pca人脸识别初学 资料

xml解析方式大全

空空如也

pca人脸识别初学资料