小萌猿-CSDN博客

原创关于Zookeeper的几个小Tips

1、单节点的leader机制，用来保证消息处理的顺序性（在leader里通过一个队列来实现） 2、有时候，直接关机，没有停掉zookeeper，下次通过zkServer.sh 开启时，会显示开启成功，但是查看状态时却发现没有运行，这时候，可以直接删除掉我们安装Zookeeper时配置的data dir那个目录，再重启Zookeeper就会好了。但是有一个问题，删掉data dir 的那台机器...

2018-03-21 16:44:09 2493

原创 MapReduce处理HBase出错：XXX.jar is not a valid DFS filename

原因：Hadoop文件系统没有检查路径时没有区分是本地windows系统还是Hadoop集群文件系统解决：只需将Map和Reduce的init方法最后一个参数(boolean addDependencyJars)设为false（默认为true）...

2018-03-16 18:00:46 7574

原创 HBase体系架构

Client • 包含访问HBase的接口并维护cache来加快对HBase的访问 Zookeeper • 保证任何时候，集群中只有一个master • 存贮所有Region的寻址入口。 • 实时监控Region server的上线和下线信息。并实时通知Master • 存储HBase的schema和table元数据 Master • 为Region server分配regio...

2018-03-13 11:57:13 2260

原创 HBase数据模型

HBase简介 – HBase – Hadoop Database，是一个高可靠性、高性能、面向列、可伸缩、实时读写的分布式数据库 – 利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理 HBase中的海量数据,利用Zookeeper作为其分布式协同服务 – 主要用来存储非结构化和半结构化的松散数据（列存 NoSQL 数据库）数据模型：在使...

2018-03-13 11:17:05 2899

原创 hive使用过程报的几个错

Hwi出错：org.apache.jasper.JasperException: Unable to compile class for JSP 解决：将java安装路径lib下的tools.jar添加到hive的lib中即可调用python脚本出错：An error occurred when trying to close the Operator running your custom...

2018-03-08 10:39:38 2609

原创 Hive数据的数据存储

Hive建表后，表的元数据存储在关系型数据库中（如：mysql），表的数据（内容）存储在hdfs中，这些数据是以文本的形式存储在hdfs中（关系型数据库是以二进制形式存储的），既然是存储在hdfs上，那么这些数据本身也是有元数据的（在NameNode中），而数据在DataNode中。这里注意两个元数据的不同。如下图，建表并导入数据：之后在mysql中会发现：有一个hive_...

2018-03-07 10:19:23 11900 1

原创 hive启动出错：Found class jline.Terminal, but interface was expected

启动hive时报错，如下图：原因：hadoop与hive的jline包版本不一致造成解决：在hadoop安装路径下的share/hadoop/yarn/lib找到jline-xxx.jar 在hive路径下的lib里也找到jline-xxx.jar，会发现这两个包版本不一致，将其同步即可，用新版本的替换老版本（反之也行）...

2018-03-04 22:12:16 3541

原创 Hadoop运行错误：org.apache.hadoop.yarn.exceptions.YarnException

打包MapReduce程序为jar包后在Hadoop集群执行时出错：原因：集群时间不一致造成的解决：同步集群时间即可同步步骤：思路：比如集群有三台机器：node1,node2,node3,将node1作为时间服务器，其它两台与node1同步即可。一、设置时间服务器：（node1中执行） 1、vi /etc/ntp.conf 注释掉restrict default kod...

2018-03-03 11:24:39 23879 1

原创 MapReduce的Shuffle过程

总的来说，Shuffle是Mapper和Reducer的中间步骤，它的功能是，将Mapper输出的键值对按照key值重新进行切分和组合，并将key值满足一定条件的键值对传送给特定的Reducer去处理。可以简化Reducer的工作。 Shuffle分为Map端和Reduce端两部分一、Map端，如下图： input：输入数据来源于block，当然map作业直接读取的是split p...

2018-02-26 20:27:50 2198

原创 Linux的RPM安装方式为什么不需要配置环境

Linux的几种软件安装方式：源码编译、压缩包、RPM包，最简单的当然是RPM安装方式，不需配置环境，不需安装相关依赖（依赖自动安装），一直好奇为什么这种方式不需要配置环境。通过RPM方式安装时，是严格遵照Linux对环境变量的路径的要求，比如： /usr/bin 可执行的命令安装目录 /usr/lib 程序所使用的库函数保存位置 /usr/share/doc 基本的软件使用手...

2018-02-16 23:22:34 5683 4

原创 HDFS1.X的单点故障和内存受限问题

HDFS2.X提出的HA和Federation分别对应解决两个问题 –解决单点故障 HDFS HA：通过主备NameNode解决，当主NameNode出现故障时，快速切换到备NameNode上。 –解决内存受限 HDFS Federation（联邦），多个NameNode水平扩展，每一个分管一部分目录，所有的NameNode共享所有DataNode存储资源。一、先说内存受限问题，...

2018-02-14 20:28:12 2506

原创 NameNode、SecondaryNameNode、DataNode

一、NameNode(NN) 主要功能：接受客户端的读写请求并分发给DataNode，DataNode是文件的主要存储与处理的地方。而NameNode中会保存文件的元数据（metadate），包括： 1、文件的拥有者、权限、文件名等 2、文件包含的块（block） 3、这些block保存在哪个DataNode中（DataNode启动时上报）这个metadata信息在磁盘中存储为文件“f

2018-02-06 23:15:45 3158

原创 Nginx+Tomcat+lvs+Keepalived搭建的高可用架构

上图所示是用Nginx做前端服务器，Tomcat做后端服务器搭建的高可用架构，其中Memcache用来缓存session，后端服务器都从memcache中获取session，避免了session不一致的问题。但是这个架构存在明显的两个问题：一、如果前端的Nginx服务器挂了，系统就挂了二、因为上形、下形流量都要走前端Nginx服务器，所以Nginx服务器的带宽和IO将会是系统的瓶颈所在。

2018-01-30 15:58:48 4015

原创 Nginx配置虚拟主机

虚拟主机是一种特殊的软硬件技术，它可以将网络上的每一台计算机分成多个虚拟主机，每个虚拟主机都可以独立对外提供www服务，每个虚拟主机是独立的，互不影响。比如我们可以通过Nginx来在一台计算机上配置多个虚拟主机。在Nginx的配置文件nginx.conf中,一个server即表示一个主机（虚拟主机），所以直接在其中配置多个server即可，具体有三种虚拟方式：一、虚拟域名：如上

2018-01-27 11:46:18 2145

原创 Ambari注册机器（Host Confirm）时遇到的两个问题（Centos7）

1、在Installing这步卡了好久，查看/var/log/ambari-server/ambari-server.log后发现如下错误：解决方法：进入/var/run/ambari-server,手动创建bootstrap文件夹，并对其添加owner为ambari，即命令：chown ambari bootstrap,然后重新启动ambari-server restart，就好了。

2018-01-08 17:25:54 10360 6

原创 Ambari成功启动，但是浏览器中无法显示

安装Ambari时，在终端通过ambari-server start启动后，显示启动successfully，但是在浏览器中通过http://sy-001.hadoop:8080/却无法显示，查看启动日志后发现，报错Counld not initialize class javax.crypto.jceSecurity，查资料后发现：JCE，Java Cryptography Extension，

2017-12-26 13:37:10 3667 1

原创 webservice客户端调用出错

用MyEclipse中的JAX-WS发布的Webservice服务，服务端使用了Mysql数据库，需要添加mysql驱动jar包，服务端测试成功后，部署同样成功，但是客户端调用却总显示无法找到mysql驱动jar包，而我的服务端和客户端都是添加了该包的，最后发现，服务器上也需要添加该驱动包，即只需将Mysql驱动包添加到Tomcat安装目录下的lib目录里，客户端便可正常调用。

2017-12-26 13:13:53 3137

转载 SQL注入详解

原文地址：http://www.cnblogs.com/rush/archive/2011/12/31/2309203.html1.1.1 摘要日前，国内最大的程序员社区CSDN网站的用户数据库被黑客公开发布，600万用户的登录名及密码被公开泄露，随后又有多家网站的用户密码被流传于网络，连日来引发众多网民对自己账号、密码等互联网信息被盗取的普遍担忧。网络安全成为了现在互联网的焦点，这也恰恰触动了每

2017-12-20 22:15:51 2088

原创 java几种数据转换

/** * 将两个字节转换成整型 * @param input the input * @return the int from the array */ public static int getIntFrom2ByteArray(final byte[] input) { final byte[] result = new byte

2017-12-19 11:27:41 2498

原创 webservice发布报错：javax.xml.ws.WebServiceException: Unable to create JAXBContext

网上有很多说法，比如方法的返回值和参数类型的要求之类的，但是都没法解决我的问题，以下是我的问题以及解决方法。如图，因为我的JudgeTime方法抛出了一个异常，所以没法发布，去掉这个，换成try（）catch就成功发布了。

2017-12-02 13:21:16 4118

转载关联分析之Apriori算法

1.数据挖掘与关联分析数据挖掘是一个比较庞大的领域，它包括数据预处理（清洗去噪）、数据仓库、分类聚类、关联分析等。关联分析可以算是数据挖掘最贴近我们生活的一部分了，打开卓越亚马逊，当挑选一本《Android4高级编程》时，它会不失时机的列出你可能还会感兴趣的书籍，比如Android游戏开发、Cocos2d-x引擎等，让你的购物车又丰富了些，而钱包又空了些。关联分析，即从一个数据集中发现项之间的隐

2017-11-19 16:02:53 2835

原创 kafka客户端启动出错

本地虚拟机搭建的kafka伪分布式，三个broker对应的配置信息分别对应config中的server.properties,server-1.properties,server-2.properties 启动完zookeeper后，分别通过： bin/kafka-server-start.sh config/server.properties bin/kafka-server-start.s

2017-11-13 17:49:02 4470

原创 indices should be one-based and in ascending order

MLUtils.loadLibSVMFile数据集标记的index是从1开始，如下：此时可以正确执行，输出：当index从0开始时：便会报错：

2017-10-30 11:56:09 3202

原创 windows安装Jupyter出错：error: Unable to find vcvarsall.bat

Windows通过：pip3 install jupyter 安装Jupyter时，报错： building ‘zmq.libzmp’extension error: Unable to find vcvarsall.bat解决方法：去这里下载Visual C++ 2015 Build Tools，之后直接默认安装即可，安装时间会有些长，安装成功后重新 pip3 install jupyte

2017-10-08 13:50:58 2226

原创 Windows安装lxml

首先在Pycharm中直接安装，安装失败其次在命令行通过pip安装，仍旧失败，经查询发现在Windows上直接安装lxml几乎都是失败的，正确的安装方式为： 1、去网站lxml下载对应的lxml的.whl文件，而对应的版本应该如何看呢，首先打开命令窗口，执行python，接着在python shell中执行： import pip;print(pip.pep425tags.get_suppo

2017-10-05 16:07:32 2336

原创 Hadoop下TreeMap的使用

最近在Hadoop下写Topk算法时，用到了TreeMap，它的API很适合该算法，比如： TreeMap

2017-10-03 17:17:40 2597

原创 Python中的name属性

每一个Python模块（.py文件）都会有一个”__name__”属性，所以我们可以在任何模块中通过print __name__来打印当前的__name__值。在本模块主动执行时__name__ =__main__,被其它模块调用执行时（这里假设本模块为test1.py,被test2.py模块调用执行） ,__name__ = test1如下图： com.driver是test1所在包

2017-09-22 17:10:59 2325

原创 linux下查看Python安装路径

Centos下是原生支持Python的，在eclipse中安装Python插件后需要关联安装路径，可通过以下命令查看Python安装路径 python import sys print sys.path

2017-09-21 15:30:37 23737

原创粗粒度与细粒度

个人理解粗粒度与细粒度的关系就是一个由粗糙到细化的过程。比如在java中我们为了类的高复用性，经常会把一个功能复杂的类（粗粒度）细分为几个简单的功能单一的类（细粒度），这就是一个细粒度的设计模式。再比如我们设计数据库时，原则上应该尽量减少表的数量以及表之间的连接，为此，能够设计为一个表的就不会将其分开为多个表。这就是一个粗粒度的设计模式。

2017-09-13 19:56:57 6967

转载 Linux中“is not in the sudoers file”解决方法

最近虚拟机装了个RedHat Enterprise Server 5，用惯了Ubuntu，觉得不太适应。当在终端执行sudo命令时，系统提示“cuser is not in the sudoers file”：$ sudo lsPassword:cuser is not in the sudoers file. This incident will be reported. 其实就

2017-09-11 17:44:37 2861

原创 hive启动报错： Hive metastore database is not initialized

解决方法：执行 schematool -dbType mysql -initSchema即可

2017-09-08 22:22:07 2792

原创 Linux学习中遇到的命令积累

图形界面的安装：第一步：yum -y groupinstall “X Window System” 第二步： yum grouplist查看可装的界面第三部：yum groupinstall “GNOME Desktop”这里GNOME Desktop为一个可装界面即可通过startx启动图形界面查看NDS cat /etc/resolv.conf查看网关 netstat...

2017-09-04 20:45:54 2069

原创鸟哥私房菜中的“od -t oCc /etc/issue”的意思

对这块有些困惑，搞了搞最后发现，其实 od -t oCc /etc/issue 等价于 od -t oC -t c /etc/issue,什么意思呢，首先,找男人时(man od)会发现：即：C代表的是char的size当我们执行 od -t oc /etc/issue 时，如下图：会发现上下无法对应上，这是因为，od命令默认是按Int读取数字的，而Int是按4字节分割的，一行只有

2017-08-17 00:02:05 4676 1

原创 Linux(centos5.5)中shutdown命令出错：bash: shutdown: command not found

这里是用户权限的问题，只需切换到root用户即可，而且必须通过”su - root”来切换，而不是”su“切换，因为“ su ”只是切换了用户并没有切换环境，而“su - root”同时切换了用户与环境

2017-08-14 15:01:42 2457

原创 AS构建项目时出错：No resource found that matches android:TextApprence.Material.Widget.Button.Inverse

Android studio上运行构建好的项目时，出现：com.android.support/appcompat-v7/23.0.1/res/values-v23/values-v23.xml错因：这是在项目运行时没有找到相关资源，查看项目build.gradle发现我的项目的compileSdkVersion=22，但是dependencies对应的appcompat为： dependenci

2017-08-03 22:02:34 352

原创 Gradle sync failed: Plugin with id 'com.novoda.bintray-release' not found

从github上下载moudle作为工程的一个library导入时出现该错误解决方法：在工程的 build.gradle中添加： dependencies { classpath ‘com.novoda:bintray-release:0.3.4’ }

2017-08-02 23:07:52 1903

原创 Error opening registry key'software\Javasoft\Java Runtime Environment' Error

目前本人遇到的出现过两次同样的错，完整的错误如下：Error opening registry key’software\Javasoft\Java Runtime Environment’ Error: could not find java.dll Error: could not find Java SE Runtime Environment’一种情况是在重新安装jdk后在控制台通过ja

2017-07-17 19:37:53 3894

原创 android studio 启动报错：could not install smartsocket listener: cannot bind to 127.0.0.1:5037:

原因 : 5037端口被占用解决方法：找到占用5037端口的进程、杀掉该进程win+R打开cmd进入命令行模式，一、输入netstat -ano可以看到占用5037端口的进程编号是5008二、输入tasklist|findstr “5008”从而可以看出是360手机助手的原因，在任务管理器中将其结束即可重新启动android studio即可

2017-07-17 16:23:52 427

原创导致Gradle DSL method not found: 'compile()' 的原因及解决方法

导致Gradle DSL method not found: ‘compile()’ 的原因及解决方法这是我们在使用android studio 时会遇到的错误原因：build.dradle中的dependencies{}内部多个compile在同一行导致的。解决方法：换行即可，使每一行只能有一个compile。

2017-07-17 15:10:56 8289

原创 android数据存储的四种方案（三）

读写Json格式的数据json格式的数据我们经常用于网络与客户端之间的数据交流，json相对于传统的xml,更加简洁，所以应用也越来越广泛，也常被用于本地存储 Android SDK用于读写JSON格式的数据的主要的两个类：JsonWriter和JsonReader,可以处理json对象和json数组，处理json对象的代码必须放在beginObject方法和endObject方法中，处理json

2016-02-08 00:42:29 2223

空空如也

空空如也