spark
文章平均质量分 74
Fang20160214
生活不止是眼前的苟且,还有代码和远方。
展开
-
Spark+HBase分布式上传海量图片数据
Spark+HBase分布式批量上传海量本地图片集群架构 3台PC机都是4G的内存,Master和一个Worker是i5处理器,一个Worker为i3处理器218.199.92.225 fang-ubuntu(Master)218.199.92.226 fei-ubuntu(Worker)218.199.92.227 kun-ubuntu(Worker)软件环境Ubuntu1604原创 2016-11-21 20:35:31 · 3067 阅读 · 1 评论 -
使用Spark批量上传图片到HBase中并同时使用OpenCV提取SIFT特征值
使用Spark批量上传图片到HBase中并同时使用OpenCV提取SIFT特征值最近正在学习利用Spark做图像的分类和检索实验,首先需要上传图像数据(保存在本地文件系统中)到HBase中,提取的图像特征是SIFT,借助OpenCV库提取,刚开始是写一个任务上传图片,然后再写一个任务提取HBase中图像的特征值,考虑到图片的序列化和反序列化会耗费大量的时间,且频繁的磁盘IO对时间消耗也很大,因此,将原创 2016-12-16 21:17:45 · 5003 阅读 · 0 评论 -
Ubuntu1604安装ganglia并监控Hadoop/HBase/Spark集群
ganglia的官方文档没找到,试了很多教程,终于配置成功,不过还有一点小问题没有解决安装依赖软件apache,php,rrdtoolganglia需要使用apache服务,rrd服务,php服务,这里安装的是最新的php7.0sudo apt-get install rrdtool apache2 php注意:此时是无法解析PHP网页的,因为没有安装apache php module 安装apa原创 2016-12-28 15:52:39 · 1279 阅读 · 2 评论 -
Spark SQL读取Hive数据配置及使用Thrift JDBC/ODBC Server访问Spark SQL
[TOC] Spark SQL可以读取hive中的数据,开启Thrift JDBC/ODBC Server服务可以使其他语言客户端使用Spark SQL.关于Spark SQL中对hive的支持,官方文档说明让人疑惑,好像没有把hive编译进去,需要自己手动编译,官方文档提及: Spark SQL also supports reading and writing data stored in原创 2017-01-11 12:02:58 · 13166 阅读 · 3 评论 -
spark流数据处理:Spark Streaming的使用
本文讲解Spark流数据处理之Spark Streaming。本文的写作时值Spark 1.6.2发布之际,Spark 2.0预览版也已发布,Spark发展如此迅速,请随时关注Spark Streaming官方文档以了解最新信息。文中对Spark Streaming的讲解主要使用到Scala语言,其他语言请参考官方文档,这点请知晓。概述Spark Streaming是S转载 2017-03-06 17:41:22 · 4978 阅读 · 0 评论 -
运行Spark项目出错error: error while loading <root>, error in opening zip file
error: error while loading <root>, error in opening zip file[ERROR] error: error while loading <root>, error in opening zip fileerror: scala.reflect.internal.MissingRequirementError: object scala.run原创 2017-03-15 14:50:09 · 6042 阅读 · 1 评论 -
Hadoop、Spark开发入门视频书籍推荐
本人大数据学习菜鸟一枚,从零开始学习大数据,这里分享我的学习过程。自学是一个考验毅力的过程,当然对自身也是一个锻炼提高的过程,但是有时候,从零开始学习,举步维艰,个人深有体会。离开学生时代的填鸭式教学,你会发现学习路上能有引路人带你入门,效率会提高很多。努力很重要,效率、方法也很重要,这里分享我学习大数据过程中学过的好的视频和书籍。如果学习Hadoop那么Java基础也应该加强,毕竟Hadoop主原创 2016-11-29 13:39:48 · 10910 阅读 · 2 评论 -
HBase客户端访问超时原因及参数优化
默认的HBase客户端的参数配置是没有做过优化的,所以对于低延时响应的HBase集群,需要对客户端的参数进行优化。1. hbase.rpc.timeout以毫秒计算的所有HBase RPC超时,默认为60s。该参数表示一次RPC请求的超时时间。如果某次RPC时间超过该值,客户端就会主动关闭socket。如果经常出现java.io.IOException: Connection reset by pe转载 2017-04-20 20:17:22 · 6690 阅读 · 0 评论