自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(54)
  • 资源 (2)
  • 收藏
  • 关注

原创 HDFS主备切换,导致HBase和Spark 无法访问Standby的namenode,而不可用

HDFS主备切换,导致HBase挂掉,并且Spark出现了Operation category READ is not supported in state standby的问题。这是因为在hadoop的HA模式下,只有active状态的namenode才可以作文hdfs的文件访问入口的。所以这里需要修改HBase和Spark的配置。 HBase修改hbase-site.xml的hbase.ro...

2019-03-21 10:39:56 1364 1

转载 Spark为什么比Hadoop快

1.前言 大数据工程师都喜欢拿Spark和Hadoop进行对比。一般的理解就是:Spark是基于内存的计算,而Hadoop是基于磁盘的计算;Spark是一种内存计算技术。 果真如此吗?事实上,不光Spark是内存计算,Hadoop其实也是内存计算。Spark和Hadoop的根本差异是多个任务之间的数据通信问题:Spark多个任务之间数据通信是基于内存,而Hadoop是基于磁盘。 Spark...

2019-01-03 15:07:58 517

原创 Spark的宽依赖和窄依赖

Spark的计算的基本单位一个一个的算子,其计算流程也是由一个个基本的算子构成的,这些算子之间的依赖关系可以分为宽依赖和窄依赖。 Spark是分布式计算,其数据也是分布式的,即所计算的数据可能分为好多个块。有些计算对数据的操作相对简单,即某一块儿的数据处理不需要涉及到其他块的数据,就是对本块数据处理完可以直接输出到下一个数据块,中间不需要更多的过程参与。比如map()算子,本身就是对每个数据进行...

2019-01-02 11:53:07 1381

原创 Spark和hbase集成遇到的一些问题

1.Spark计算都转移到了一个节点上,即只有一个节点在计算。      搭建好的spark集群,进行计算的时候发现,所有的slave节点上的task生成后,快速退出,并且生成好多task。查看spark ui上发现,只有主节点上有正常task运行,其他的slave节点都没有分到相应的task。如下所示: 主要是找到错误日志,主节点上的work目录下没有错误输出,然后找到slave节点下的wo...

2018-10-18 19:17:45 1112

原创 hbase和hadoop版本搭配

搭建hbase的时候,网上有好多教程说hbase用到的lib下的hadoop核心包,要和你集群用到的hadoop版本一致,我觉得这个没有必要,我试了一下,反而hbase无法启动。关于这个问题,最好的解决方案在hbase官方文档上,上面有hbase和hadoop嗯嗯版本搭配信息,只要上面说是版本支持的,就可放心使用:顺便附上一张图。...

2018-06-05 16:23:31 1859

原创 部署hadoop集群ha模式常见的问题,以及解决方案

1.      集群中的某个datanode无法启动。原因:可能是该节点的clusterId和master上的不一样了,修改clusterId和master一样的就行了。如下:在core-site.xml中找到配置的hadoop.tmp.dir,往下找/dfs/name/current下有个VERSION文件,打开如下:对比master上的clusterID,修改为mater上的ID就行了。2. ...

2018-05-10 17:11:30 2023 1

原创 在squirrel中为表和hbase添加新的映射

        用squirrel操作hbase是很方便的事情。hbase本来就是比较灵活的,可以随意添加列,如果hbase中添加了新列,那么在squirrel中查询的时候,就查不到新列的值,所以需要修改squirrel中表的结构,就是为表和hbase中的表添加新的列映射。        右键单击表名,选择refactoring->cloumn->add cloumn。虽然有这个功能,...

2018-03-21 12:27:31 437

转载 myeclipse 无法正常添加server library

显现描述,myeclipse中按照正常windows-->preference添加tomcat后,然后在添加环境变量的时候,还是找不到相应的服务器。解决方法如下: http://blog.csdn.net/yiluoak_47/article/details/36868085 ...

2017-12-04 15:39:43 1780

原创 linux debian下配置ntp时钟同步

集群设置时钟同步ntp。 对于hadoop集群设置时钟同步就是一个十分重要的事情,下面我介绍一下,debain设置时钟同步的方法。网上关于RedHat和centos系统的设置方法都很多,我就不介绍了。 同步模式:所有的slaves同步master的时间。 我是参考下面网址: http://www.debianadmin.com/ntp-server-and-client-configura

2017-11-24 17:33:14 7687

转载 字符常见的几种编码方式

关于几种常见的编码方式的详解,可参见以下链接: http://blog.csdn.net/lengdetianxia2010/article/details/71125647 http://blog.csdn.net/csywwx2008/article/details/17137097

2017-08-22 18:12:35 913

原创 Spring定时任务启动两次

Spring中定义了一个定时任务,但是启动之后,每次到时间之后,同一个任务都会运行两边,并且这个任务费时较长,所有不能放任不管。 在网上找了一些解决方法,但是大家总结的一个问题根源就是,任务被加载两次,所以就会执行两次。 下面这位博主对问题做了深入的分析,可以作为参考: http://blog.csdn.net/chaijunkun/article/details/6925889 但是上面...

2017-05-16 15:55:44 835

原创 tomcat下的log4j路径问题

tomcat中log4j日志找不到日志问题。

2017-05-15 17:57:36 552

原创 交换两个变量的三种方式

交换两个变量的三种方式

2017-03-08 21:24:08 540

原创 Java中集合类set、List和map的遍历方式

Java中集合类set、List和map的遍历方式

2017-03-08 17:59:00 361

java使用hbase-1.2版本需要的最小的jar包

java客户端连接hbase所需要的最少的jar包集合,这个我用的hbase1.2.1的,大家用的版本可能是有稍许的差别(但是这个jar包应该可以用),不过所需要的包名是一样的,只是版本不一样而已,可以根据具体的需要修改为相应的版本。

2018-06-10

谷歌关于大数据的三大论文

谷歌奠定了现在大数据框架的基础,这三篇论文就是google发表的关于bigtable,gfs(google大数据文件系统,Google file system),mapreduce的介绍,阅读之后可以帮助梳理关于大数据的一些思想

2018-10-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除