2015年07月_Rosen_Luo

原创 map 与 flatMap 的区别

今天写程序遇到取数据时用map报错，用flatmap就可以正常使用，想分析其原因如下：通过sc.textFile取文件后先map切割：scala> val mrdd = line.map(_.split(" "))mrdd: org.apache.spark.rdd.RDD[Array[String]] = MapPartitionsRDD[4] at map at :23查看map

2015-07-16 16:59:50 7466

原创 spark1.4 读取hbase 0.96 报错 java.io.NotSerializableException: org.apache.hadoop.hbase.io.ImmutableBytes

spark接hbase读取数据： val sc = new SparkContext(sparkConf) val conf = HBaseConfiguration.create() conf.set("hbase.zookeeper.property.clientPort", "port..") conf.set("hbase.zookeeper.quoru

2015-07-14 10:30:36 3509

原创 spark接hbase遇到版本兼容的问题

spark集群spark-submit提交后运行HbaseTest设置zookeeper参数：conf.set("hbase.zookeeper.property.clientPort", "2181")conf.set("hbase.zookeeper.quorum", "ip1，ip2")运行时报错：Caused by: java.lang.IllegalAccessEr

2015-07-10 16:34:29 3261

原创 IntelliJ IDEA开发Spark1.4.0环境部署

1：IDEA的安装官网jetbrains.com下载IntelliJ IDEA，有Community Editions 和& Ultimate Editions，前者免费，用户可以选择合适的版本使用。根据安装指导安装IDEA后，需要安装scala插件，有两种途径可以安装scala插件：启动IDEA -> Welcome to IntelliJ IDEA -> Con

2015-07-09 10:09:44 977

原创 HBase 常用Shell命令

名称命令表达式创建表create '表名称', '列名称1','列名称2','列名称N'添加记录 put '表名称', '行名称', '列名称:', '值'查看记录get '表名称', '行名称'查看表中的记录总数count '表名称'

2015-07-08 15:34:55 438

原创 ConcurrentHashMap

线程不安全的HashMap因为多线程环境下，使用Hashmap进行put操作会引起死循环，导致CPU利用率接近100%，所以在并发情况下不能使用HashMap。效率低下的HashTable容器 HashTable容器使用synchronized来保证线程安全，但在线程竞争激烈的情况下HashTable的效率非常低下。因为当一个线程访问HashTable的同步方法时，

2015-07-08 10:14:16 451

原创 spark集群动态增加worker节点

spark集群有4台机器，集群环境如下：新增S30这台机器：1. 先在S30这台机器把spark环境配置好，从M29复制过来，包括：scala，spark程序等2. 新增的S30到spark-1.3.0-bin-hadoop2.4/sbin目录下直接启动：start-slave.sh 1 指定master3. 验证worker是否增加成功：4. 修改

2015-07-03 09:59:32 4884

Jor_rosen的技术博客