Spark+HBase分布式上传海量图片数据

最新推荐文章于 2024-02-11 10:39:56 发布

Fang20160214

最新推荐文章于 2024-02-11 10:39:56 发布

阅读量3k

点赞数 2

分类专栏： spark HBase 文章标签： spark hbase ubuntu

本文链接：https://blog.csdn.net/u010638969/article/details/53263942

版权

本文介绍了使用Spark在3台PC组成的集群上，通过HBase分布式批量上传200GB图像数据的过程。集群配置、软件环境、搭建步骤以及程序测试与优化细节均被详述，包括遇到的节点失联问题及其解决方案。

摘要由CSDN通过智能技术生成

Spark+HBase分布式批量上传海量本地图片

218.199.92.225  fang-ubuntu（Master）
218.199.92.226  fei-ubuntu（Worker）
218.199.92.227  kun-ubuntu（Worker）

由于有200G的图像数据放在本地数据库，需要上传的HBase数据库中进行处理，考虑到速度的影响，尝试使用Spark分布式批量上传图片数据。

集群搭建
由于需要用到HDFS，因此需要搭建Hadoop集群，需要搭建HBase集群，需要搭建Spark集群。可以参考我其余两篇博客
Spark on Yarn集群搭建
http://blog.csdn.net/u010638969/article/details/51283216
HBase-1.2.4分布式集群搭建
http://blog.csdn.net/u010638969/article/details/53257879
搭建开发环境
程序是在Intellij Idea中编写，因此需要搭建Spark的开发环境
- 安装scala，sbt插件
- Intellij Idea 中spark项目需要导入 spark-assembly-1.6.1-hadoop-2.6.0
- 导入HBase-1.2.4/lib目录中的jar包
编写本地测试程序
本地测试程序代码如下：

import org.apache.hadoop.hbase._
import o

关注