会飞的犬良-CSDN博客

原创 HDFS主备切换，导致HBase和Spark 无法访问Standby的namenode,而不可用

HDFS主备切换，导致HBase挂掉，并且Spark出现了Operation category READ is not supported in state standby的问题。这是因为在hadoop的HA模式下，只有active状态的namenode才可以作文hdfs的文件访问入口的。所以这里需要修改HBase和Spark的配置。 HBase修改hbase-site.xml的hbase.ro...

2019-03-21 10:39:56 1364 1

转载 Spark为什么比Hadoop快

1.前言大数据工程师都喜欢拿Spark和Hadoop进行对比。一般的理解就是：Spark是基于内存的计算，而Hadoop是基于磁盘的计算；Spark是一种内存计算技术。果真如此吗？事实上，不光Spark是内存计算，Hadoop其实也是内存计算。Spark和Hadoop的根本差异是多个任务之间的数据通信问题：Spark多个任务之间数据通信是基于内存，而Hadoop是基于磁盘。 Spark...

2019-01-03 15:07:58 517

原创 Spark的宽依赖和窄依赖

Spark的计算的基本单位一个一个的算子，其计算流程也是由一个个基本的算子构成的，这些算子之间的依赖关系可以分为宽依赖和窄依赖。 Spark是分布式计算，其数据也是分布式的，即所计算的数据可能分为好多个块。有些计算对数据的操作相对简单，即某一块儿的数据处理不需要涉及到其他块的数据，就是对本块数据处理完可以直接输出到下一个数据块，中间不需要更多的过程参与。比如map()算子，本身就是对每个数据进行...

2019-01-02 11:53:07 1381

原创 Spark和hbase集成遇到的一些问题

1.Spark计算都转移到了一个节点上，即只有一个节点在计算。搭建好的spark集群，进行计算的时候发现，所有的slave节点上的task生成后，快速退出，并且生成好多task。查看spark ui上发现，只有主节点上有正常task运行，其他的slave节点都没有分到相应的task。如下所示：主要是找到错误日志，主节点上的work目录下没有错误输出，然后找到slave节点下的wo...

2018-10-18 19:17:45 1112

原创 hbase和hadoop版本搭配

搭建hbase的时候，网上有好多教程说hbase用到的lib下的hadoop核心包，要和你集群用到的hadoop版本一致，我觉得这个没有必要，我试了一下，反而hbase无法启动。关于这个问题，最好的解决方案在hbase官方文档上，上面有hbase和hadoop嗯嗯版本搭配信息，只要上面说是版本支持的，就可放心使用：顺便附上一张图。...

2018-06-05 16:23:31 1859

原创部署hadoop集群ha模式常见的问题，以及解决方案

1. 集群中的某个datanode无法启动。原因：可能是该节点的clusterId和master上的不一样了，修改clusterId和master一样的就行了。如下：在core-site.xml中找到配置的hadoop.tmp.dir，往下找/dfs/name/current下有个VERSION文件，打开如下：对比master上的clusterID，修改为mater上的ID就行了。2. ...

2018-05-10 17:11:30 2023 1

原创在squirrel中为表和hbase添加新的映射

用squirrel操作hbase是很方便的事情。hbase本来就是比较灵活的，可以随意添加列，如果hbase中添加了新列，那么在squirrel中查询的时候，就查不到新列的值，所以需要修改squirrel中表的结构，就是为表和hbase中的表添加新的列映射。右键单击表名，选择refactoring->cloumn->add cloumn。虽然有这个功能，...

2018-03-21 12:27:31 437

转载 myeclipse 无法正常添加server library

显现描述，myeclipse中按照正常windows-->preference添加tomcat后，然后在添加环境变量的时候，还是找不到相应的服务器。解决方法如下： http://blog.csdn.net/yiluoak_47/article/details/36868085 ...

2017-12-04 15:39:43 1780

原创 linux debian下配置ntp时钟同步

集群设置时钟同步ntp。对于hadoop集群设置时钟同步就是一个十分重要的事情,下面我介绍一下，debain设置时钟同步的方法。网上关于RedHat和centos系统的设置方法都很多，我就不介绍了。同步模式：所有的slaves同步master的时间。我是参考下面网址： http://www.debianadmin.com/ntp-server-and-client-configura

2017-11-24 17:33:14 7687

转载字符常见的几种编码方式

关于几种常见的编码方式的详解，可参见以下链接： http://blog.csdn.net/lengdetianxia2010/article/details/71125647 http://blog.csdn.net/csywwx2008/article/details/17137097

2017-08-22 18:12:35 913

原创 Spring定时任务启动两次

Spring中定义了一个定时任务，但是启动之后，每次到时间之后，同一个任务都会运行两边，并且这个任务费时较长，所有不能放任不管。在网上找了一些解决方法，但是大家总结的一个问题根源就是，任务被加载两次，所以就会执行两次。下面这位博主对问题做了深入的分析，可以作为参考： http://blog.csdn.net/chaijunkun/article/details/6925889 但是上面...

2017-05-16 15:55:44 835