自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(42)
  • 资源 (2)
  • 收藏
  • 关注

原创 spark复习必看架构

1. hive on spark    http://lxw1234.com/archives/2015/05/200.htm    focus: RPC transfer message between client and driver.(RPC http://www.cnblogs.com/Hybird3D/p/3346582.html)                optim

2017-01-10 20:31:57 292

原创 couch DB

1. url转义特殊字符需要转义(想想怎样在浏览器地址上转义特殊字符?) /  ->  %2F   , ex:vagrant@vagrant-ubuntu-trusty-64:~/openwhisk/ansible$ curl -X GET http://localhost:5984/root_vagrant-ubuntu-trusty-64_whisks/whisk.syst

2016-06-17 07:19:40 417

原创 Bluemix cf命令

--登录cf logincf login -u  lfz.carlos@gmail.com  -o lfz.carlos@gmail.com  -s lfz.carlos@space--上传app的war包cf push JavaWebProjectDemo -p  "E:\J2EE project\JavaWebProjectDemo\target\JavaHelloWorldA

2016-06-02 02:55:33 391

原创 Bluemix 各个组件

menifest.yml:  应用applications:- path: target/JavaHelloWorldApp.war   memory: 512M    instances: 1  domain: mybluemix.net   name: JavaWebProjectDemo    host: javawebprojectdemo    disk_

2016-06-02 02:52:47 268

原创 IBM bluemix Big Picture

Bluemix capabilities:    framework: spring/mvc     service: RDBMS/NOSQL/MSG/watson ....   service    cloud:  public/private/micro cloud integrationwhat is special?    Run Y

2016-06-02 02:26:53 494

原创 编程习惯记录

1. 对于树形结构的判断分支,不要写成:if    if   else ifelse可以试一下抽取出布尔表达式,like   bool1 && bool2 ....

2016-05-18 23:51:48 287

翻译 flume , kafka 调试

kafka集群基本操作命令启动zookeeper                  zkServer.shstart/status/stop启动kafka                   ./kafka-server-start.sh-daemon ../config/server.properties列出所有 topicskafka-topics.sh  --

2016-05-03 00:36:54 363

原创 kafka远程客户端 运行producer线程 时报 Unable to connect to zookeeper server within timeout: 400

问题:一个小问题,在配置好(1)kafka集群,(2)kafka的producer和consumer端码好后,会报Unable to connect to zookeeper server within timeout: 400。我的环境:本机windows上运行集群(独立的3台linux虚拟机),NAT连接方式在windows上的eclipse启动producer线程,线

2016-04-28 23:40:20 15656 2

原创 OLAP与OLAP

OLTP    单词查询数据量小    响应快    在线处理OLAP     单词查询数据量大     查询逻辑复杂(BI 概念: 聚合,上卷,下钻)     离线处理基础架构方面:工具:    *全文索引         Elasticsearch     应用于OLTP,没有搜索效率下降问题,但内存开销大,到排序索引查询结构

2016-04-28 16:37:23 384

转载 maven

http://blog.csdn.net/andyliulin/article/details/46544555http://www.oschina.net/question/1172172_181263http://www.cnblogs.com/lanxuezaipiao/p/3291641.htmlhttp://blog.csdn.net/zhangdaiscott/articl

2016-04-20 05:32:20 245

原创 java命令行路径

问题: classloader在load class的时候load class的路径上是怎样的过程?1. -jar 选项 告诉 classloader 执行以menifest.mf文件里的main-class为 启动类.会忽略-cp参数2. menifest.mf文件格式为Manifest-Version: 1.0 Main-Class: windows.VideoWind

2016-04-19 22:54:42 2256

原创 sqoop

sqoop: sql to hadoop原理: sql取数据+mapreduce      按主键把列分成     元素据+数据: 元素据会在导入的时候自动生成到本地目录下     范围:jdbc接口     数据--warehouse-dir

2016-03-19 15:07:48 257

原创 hadoop 排序

全局排序二次排序

2016-03-11 01:37:53 323

原创 Spark-Graph x

Graph x

2016-03-10 23:13:17 411

转载 Spark配置

spark基础组件运行配置参见:http://www.iteblog.com/archives/1143

2016-03-10 19:36:40 179

原创 scala 对比java 贴

1. trait  相当于Java的特征2. forfor(i0 until a.length)for(i=0;i3. polymorphism: 类型和方法作为参数def bubbleSort[A Ordered[A]](a:Array[A]){ for(i0 until a.length){ for(j0 until a.length){

2016-03-08 01:58:03 522

原创 hadoop

三大组件:GFS:   一次写,多次读mapreduce: BigTable: HBase

2016-03-05 10:25:38 244

原创 spark&scala集合

本帖重点关注scala以及兼容到spark平台上的数据集合,包括Iterator Seq Array Set  List  Tuple RDDDStream1. Iterator 慎用此类型循环事特别注意,由于就是follow Iterator的概念,所以遍历一次后,往往再遍历就为空Iterator了,例如:val mydata = Sour

2016-03-04 03:20:03 340

原创 questions

1. val vector = data.map{line=> val record = line.split("::") match{case Array(user,product,rate,timestamp)=> (timestamp.toInt % 10 , Rating(user.toInt,product.toInt,rate.toDouble))

2016-03-03 22:45:21 249

原创 Spark RDD

def compute(split: Partition, context: TaskContext): Iterator[T]protected def getPartitions: Array[Partition]protected def getDependencies: Seq[Dependency[_]] = depsprotected def ge

2016-03-02 21:14:27 281

原创 spark优化

1.  多次filter操作后,RDD中partition的数据量会越来越少,当很小接近于空的时候,会损耗性能     解决: 利用coalesce 或 repartition减少RDD中partition数量

2016-03-02 20:51:20 323

原创 spark 各组件研究

createTaskScheduler    case SPARK_REGEX(sparkUrl)         SparkDeploySchedulerBackend                    CoarseGrainedExecutorBackend                case LaunchTask(data) (1)

2016-03-02 19:13:40 706

原创 spark MLlib

1.  kmeans            kmeans++  解决kmeans的初值点个数设置,点位置初始化问题,具体:               利用区间采样的方法=> 在一组数据中怎么随机选取值较大的数,例如选取若干个学习好的学生?                                   kmeans++步骤:                 从输入的数据点

2016-03-01 20:00:54 512

原创 spark streaming 编程

1.  DStream 找不到 reduceByKey                http://www.68idc.cn/help/jiabenmake/qita/20150115172034.html

2016-03-01 05:19:46 236

原创 spark streaming & storm

spark streaming    针对批处理    吞吐量大   storm   针对一条记录  及时性较高   spark生态系统兼容性差

2016-03-01 04:54:06 190

原创 spark streaming

Streaming general  structureDStream操作场景    无状态         只考虑一个RDD     状态         考虑一组RDDs的累加值    window        窗口长度         滑动长度code structure://一秒采样一次数据val ssc = new

2016-03-01 04:02:20 386

原创 Hive QL

create tableinsertloadexplainhttps://cwiki.apache.org/confluence/display/Hive/LanguageManual

2016-02-29 05:14:01 307

原创 hive 结构

HIVEMetaStrore    element:table...Driver   compiler    parsing:get table....  from metastore ->  logical planoptimizer   optimze logical plan  using DAGexecuter   generate physical plan and

2016-02-29 04:38:31 327

原创 transformation action

val num = sc.parallelize(1 to 10,3)指定3个分片(cpu)//transformationval doublenum = num.map(_*2)val threenum = doublenum.filter(_ % 3 ==0)//actiondoublenum.collect()threenum.collect()

2016-02-29 04:23:59 275

原创 spark概览

jobstageTaskTransformationAction RDDpersist or cache共享变量broadcast variable累加器Driver programSparkConfSparkContextcloseSpark shell系统自动初始化SparkContext并行化

2016-02-27 06:42:24 393

原创 Hadoop族 版本变化

1. Hbase变化:      0.94.6时public class Put extends Mutation implements HeapSize, Writable, Comparable   0.95.2时public class Put extends Mutation implements HeapSize, Comparable影响:   public s

2016-02-26 01:54:22 534

转载 Hbase 基本操作

1.Eclipse中运行JAVA代码远程操作HBase的示例http://blog.csdn.net/kkdelta/article/details/204573192. Windows下安装HBasehttp://blog.csdn.net/kangkanglou/article/details/30748139

2016-02-25 05:34:54 424

原创 Connection refused Will not attempt to authenticate using SASL

#描述:启动 start-hbase.sh     或者   JAVA 代码连接hbase时会出现 SASL 问题# 错误信息:WARN org.apache.zookeeper.ClientCnxn: Session 0x0 for server null, unexpected error, closing socket connection and attempt

2016-02-25 05:31:05 1122

转载 eclipse 连接 habse 问题汇总

Exception in thread "main" java.lang.NoClassDefFoundError: com/google/protobuf/ServiceExceptionhttp://doc.okbase.net/ll6863/archive/122534.htmljava.lang.ClassNotFoundException: org.apa

2016-02-25 04:04:39 869

原创 Hbase hirachical structure

table structurehow table worksHmaster

2016-02-24 23:59:49 446

原创 hbase sql 基本命令模板

create 'member','member_id','address,''info'disable 'member'alter 'member',{NAME='address','METHOD=''delete'}enable 'member'put 'member','wo','address:age' ,'26'describe  'member

2016-02-24 05:49:01 417

原创 hive comand

show tables create table asd (c1 string )  drop table asd

2016-02-24 00:28:52 313

原创 hive install

1.   download https://archive.apache.org/dist/hive/hive-0.11.0/hive-0.11.0-bin.tar.gz2.  configure  in conf/hive-env.sh                         HADOOP_PATH                         HIVE_CONF_DIR

2016-02-23 23:39:20 285

转载 怎样理解 R 里面的 evironment

见 http://blog.obeautifulcode.com/R/How-R-Searches-And-Finds-Stuff/

2015-10-03 05:21:58 307

原创 quantmod getsymbols 里面出现 Error in download.file cannot open URL

错误如下 Error in download.file(paste(google.URL, "q=", Symbols.name, "&startdate=", : cannot open URL 'http://finance.google.com/finance/historical?q=ORCL&startdate=Aug+20,+2013&enddate=Aug+22,

2015-10-03 05:04:40 2891 2

pca人脸识别初学 资料

网上 收集的pca人脸识别文档适合初学者

2015-05-30

xml解析方式大全

xml解析方式包括w3c dom,sax,xpp,stax,vtd方式,其实还有jdom和xmlevent这样才够全面

2014-06-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除