- 博客(7)
- 收藏
- 关注
原创 map 与 flatMap 的区别
今天写程序遇到取数据时用map报错,用flatmap就可以正常使用,想分析其原因如下:通过sc.textFile取文件后先map切割:scala> val mrdd = line.map(_.split(" "))mrdd: org.apache.spark.rdd.RDD[Array[String]] = MapPartitionsRDD[4] at map at :23查看map
2015-07-16 16:59:50 7466
原创 spark1.4 读取hbase 0.96 报错 java.io.NotSerializableException: org.apache.hadoop.hbase.io.ImmutableBytes
spark接hbase读取数据: val sc = new SparkContext(sparkConf) val conf = HBaseConfiguration.create() conf.set("hbase.zookeeper.property.clientPort", "port..") conf.set("hbase.zookeeper.quoru
2015-07-14 10:30:36 3509
原创 spark接hbase遇到版本兼容的问题
spark集群spark-submit提交后运行HbaseTest设置zookeeper参数:conf.set("hbase.zookeeper.property.clientPort", "2181")conf.set("hbase.zookeeper.quorum", "ip1,ip2")运行时报错:Caused by: java.lang.IllegalAccessEr
2015-07-10 16:34:29 3261
原创 IntelliJ IDEA开发Spark1.4.0环境部署
1:IDEA的安装 官网jetbrains.com下载IntelliJ IDEA,有Community Editions 和& Ultimate Editions,前者免费,用户可以选择合适的版本使用。根据安装指导安装IDEA后,需要安装scala插件,有两种途径可以安装scala插件:启动IDEA -> Welcome to IntelliJ IDEA -> Con
2015-07-09 10:09:44 977
原创 HBase 常用Shell命令
名称命令表达式创建表create '表名称', '列名称1','列名称2','列名称N'添加记录 put '表名称', '行名称', '列名称:', '值'查看记录get '表名称', '行名称'查看表中的记录总数count '表名称'
2015-07-08 15:34:55 438
原创 ConcurrentHashMap
线程不安全的HashMap因为多线程环境下,使用Hashmap进行put操作会引起死循环,导致CPU利用率接近100%,所以在并发情况下不能使用HashMap。效率低下的HashTable容器 HashTable容器使用synchronized来保证线程安全,但在线程竞争激烈的情况下HashTable的效率非常低下。因为当一个线程访问HashTable的同步方法时,
2015-07-08 10:14:16 451
原创 spark集群动态增加worker节点
spark集群有4台机器,集群环境如下:新增S30这台机器:1. 先在S30这台机器把spark环境配置好,从M29复制过来,包括:scala,spark程序等2. 新增的S30到spark-1.3.0-bin-hadoop2.4/sbin目录下直接启动:start-slave.sh 1 指定master3. 验证worker是否增加成功:4. 修改
2015-07-03 09:59:32 4884
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人