Spark+HBase分布式上传海量图片数据

本文介绍了使用Spark在3台PC组成的集群上,通过HBase分布式批量上传200GB图像数据的过程。集群配置、软件环境、搭建步骤以及程序测试与优化细节均被详述,包括遇到的节点失联问题及其解决方案。
摘要由CSDN通过智能技术生成

Spark+HBase分布式批量上传海量本地图片

  • 集群架构
    3台PC机都是4G的内存,Master和一个Worker是i5处理器,一个Worker为i3处理器
218.199.92.225  fang-ubuntu(Master)
218.199.92.226  fei-ubuntu(Worker)
218.199.92.227  kun-ubuntu(Worker)
  • 软件环境


    Ubuntu1604
    Hadoop-2.7.2
    Spark-1.6.1
    Scala-2.10.5
    HBase-1.2.4
    Java 1.8.0_77


由于有200G的图像数据放在本地数据库,需要上传的HBase数据库中进行处理,考虑到速度的影响,尝试使用Spark分布式批量上传图片数据。


  1. 集群搭建
    由于需要用到HDFS,因此需要搭建Hadoop集群,需要搭建HBase集群,需要搭建Spark集群。可以参考我其余两篇博客
    Spark on Yarn集群搭建
    http://blog.csdn.net/u010638969/article/details/51283216
    HBase-1.2.4分布式集群搭建
    http://blog.csdn.net/u010638969/article/details/53257879
  2. 搭建开发环境
    程序是在Intellij Idea中编写,因此需要搭建Spark的开发环境
    • 安装scala,sbt插件
    • Intellij Idea 中spark项目需要导入 spark-assembly-1.6.1-hadoop-2.6.0
    • 导入HBase-1.2.4/lib目录中的jar包
  3. 编写本地测试程序
    本地测试程序代码如下:
import org.apache.hadoop.hbase._
import o
  • 2
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值