spark
Lcafebabe
这个作者很懒,什么都没留下…
展开
-
spark-hbase数据操作心得
通过spark程序读写hbase的方法百度上太多了,这里我就不一一列举,这里我要分享的是我在开发spark程序对hbase读写时喜欢使用的方法,水平有限,还望指点。我的hbase表结构是简单的rowkey + cfamily:”INFO” + value首先,定义几个方法/*** 扫描全表,返回数据集* @param connection: Connection* @param tableNa原创 2017-08-26 19:47:54 · 1560 阅读 · 0 评论 -
no xxx to stop
接触大数据集群就有时需要重启集群,在重启的时候经常会遇到no xxx to stop的问题,我的集群包括hadoop、hbase、spark,停止的时候都有此情况发生,原因是配置中有个xxx_PID_DIR参数,默认为/tmp,这个目录linux会定期清理,所以会找不到pid也就没办法正常停止,解决思路如下: 将hadoop、hbase、spark的家目录/sbin下的xxx-daemon.sh中原创 2017-08-28 13:36:52 · 1292 阅读 · 0 评论 -
浅谈我对Spark的理解
学习Spark无非出于三点,感兴趣,有需求,他很火。但对于我来说,从刚开始接触Spark不是因为他很火,而是因为Scala这门语言。正是Scala这门语言的许多特性让我十分爱不释手,我才开始硬着头皮去钻Scala各种独特的用法,也同时硬着头皮去学习Spark,最后沉迷于用各种巧妙地方法写Spark,但是由于缺少数据支持,我也只是停留在写出优美简洁的代码、分析分析Spark源码而已,这根本不算是...原创 2018-08-16 14:13:14 · 2088 阅读 · 0 评论 -
巧用Scala结合par方法
不说话,直接看图: 是很简单的执行24次count,左边是串行(节省时间我把第五个jobkill掉了),右边是par后执行,可以看出par的威力。附代码:val ses = ...().parses.tasksupport = new ForkJoinTaskSupport(new ForkJoinPool(4))ses.map{case (h, (start, end)) ...原创 2018-08-16 14:38:05 · 4072 阅读 · 2 评论