自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

小萌猿的博客

本人的所有文章只是个人观点,欢迎批评指教

  • 博客(83)
  • 收藏
  • 关注

原创 关于Zookeeper的几个小Tips

1、单节点的leader机制,用来保证消息处理的顺序性(在leader里通过一个队列来实现) 2、有时候,直接关机,没有停掉zookeeper,下次通过zkServer.sh 开启时,会显示开启成功,但是查看状态时却发现没有运行,这时候,可以直接删除掉我们安装Zookeeper时配置的data dir那个目录,再重启Zookeeper就会好了。 但是有一个问题,删掉data dir 的那台机器...

2018-03-21 16:44:09 2493

原创 MapReduce处理HBase出错:XXX.jar is not a valid DFS filename

原因:Hadoop文件系统没有检查路径时没有区分是本地windows系统还是Hadoop集群文件系统 解决: 只需将Map和Reduce的init方法最后一个参数(boolean addDependencyJars)设为false(默认为true)...

2018-03-16 18:00:46 7574

原创 HBase体系架构

Client • 包含访问HBase的接口并维护cache来加快对HBase的访问 Zookeeper • 保证任何时候,集群中只有一个master • 存贮所有Region的寻址入口。 • 实时监控Region server的上线和下线信息。并实时通知Master • 存储HBase的schema和table元数据 Master • 为Region server分配regio...

2018-03-13 11:57:13 2260

原创 HBase数据模型

HBase简介 – HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩、 实时读写的分布式数据库 – 利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理 HBase中的海量数据,利用Zookeeper作为其分布式协同服务 – 主要用来存储非结构化和半结构化的松散数据(列存 NoSQL 数据库) 数据模型: 在使...

2018-03-13 11:17:05 2899

原创 hive使用过程报的几个错

Hwi出错:org.apache.jasper.JasperException: Unable to compile class for JSP 解决:将java安装路径lib下的tools.jar添加到hive的lib中即可调用python脚本出错:An error occurred when trying to close the Operator running your custom...

2018-03-08 10:39:38 2609

原创 Hive数据的数据存储

Hive建表后,表的元数据存储在关系型数据库中(如:mysql),表的数据(内容)存储在hdfs中,这些数据是以文本的形式存储在hdfs中(关系型数据库是以二进制形式存储的),既然是存储在hdfs上,那么这些数据本身也是有元数据的(在NameNode中),而数据在DataNode中。这里注意两个元数据的不同。 如下图,建表并导入数据: 之后在mysql中会发现: 有一个hive_...

2018-03-07 10:19:23 11900 1

原创 hive启动出错:Found class jline.Terminal, but interface was expected

启动hive时报错,如下图: 原因:hadoop与hive的jline包版本不一致造成 解决:在hadoop安装路径下的share/hadoop/yarn/lib找到jline-xxx.jar 在hive路径下的lib里也找到jline-xxx.jar,会发现这两个包版本不一致,将其同步即可,用新版本的替换老版本(反之也行)...

2018-03-04 22:12:16 3541

原创 Hadoop运行错误:org.apache.hadoop.yarn.exceptions.YarnException

打包MapReduce程序为jar包后在Hadoop集群执行时出错: 原因:集群时间不一致造成的 解决:同步集群时间即可 同步步骤: 思路:比如集群有三台机器:node1,node2,node3,将node1作为时间服务器,其它两台与node1同步即可。 一、设置时间服务器:(node1中执行) 1、vi /etc/ntp.conf 注释掉restrict default kod...

2018-03-03 11:24:39 23879 1

原创 MapReduce的Shuffle过程

总的来说,Shuffle是Mapper和Reducer的中间步骤,它的功能是,将Mapper输出的键值对按照key值重新进行切分和组合,并将key值满足一定条件的键值对传送给特定的Reducer去处理。可以简化Reducer的工作。 Shuffle分为Map端和Reduce端两部分 一、Map端,如下图: input: 输入数据来源于block,当然map作业直接读取的是split p...

2018-02-26 20:27:50 2198

原创 Linux的RPM安装方式为什么不需要配置环境

Linux的几种软件安装方式:源码编译、压缩包、RPM包,最简单的当然是RPM安装方式,不需配置环境,不需安装相关依赖(依赖自动安装),一直好奇为什么这种方式不需要配置环境。 通过RPM方式安装时,是严格遵照Linux对环境变量的路径的要求,比如: /usr/bin 可执行的命令安装目录 /usr/lib 程序所使用的库函数保存位置 /usr/share/doc 基本的软件使用手...

2018-02-16 23:22:34 5683 4

原创 HDFS1.X的单点故障和内存受限问题

HDFS2.X提出的HA和Federation分别对应解决两个问题 –解决单点故障 HDFS HA:通过主备NameNode解决,当主NameNode出现故障时,快速切换到备NameNode上。 –解决内存受限 HDFS Federation(联邦),多个NameNode水平扩展,每一个分管一部分目录,所有的NameNode共享所有DataNode存储资源。一、先说内存受限问题,...

2018-02-14 20:28:12 2506

原创 NameNode、SecondaryNameNode、DataNode

一、NameNode(NN) 主要功能:接受客户端的读写请求并分发给DataNode,DataNode是文件的主要存储与处理的地方。而NameNode中会保存文件的元数据(metadate),包括: 1、文件的拥有者、权限、文件名等 2、文件包含的块(block) 3、这些block保存在哪个DataNode中(DataNode启动时上报) 这个metadata信息在磁盘中存储为文件“f

2018-02-06 23:15:45 3158

原创 Nginx+Tomcat+lvs+Keepalived搭建的高可用架构

上图所示是用Nginx做前端服务器,Tomcat做后端服务器搭建的高可用架构,其中Memcache用来缓存session,后端服务器都从memcache中获取session,避免了session不一致的问题。但是这个架构存在明显的两个问题: 一、如果前端的Nginx服务器挂了,系统就挂了 二、因为上形、下形流量都要走前端Nginx服务器,所以Nginx服务器的带宽和IO将会是系统的瓶颈所在。

2018-01-30 15:58:48 4015

原创 Nginx配置虚拟主机

虚拟主机是一种特殊的软硬件技术,它可以将网络上的每一台计算机分成多个虚拟主机,每个虚拟主机都可以独立对外提供www服务,每个虚拟主机是独立的,互不影响。 比如我们可以通过Nginx来在一台计算机上配置多个虚拟主机。 在Nginx的配置文件nginx.conf中,一个server即表示一个主机(虚拟主机),所以直接在其中配置多个server即可,具体有三种虚拟方式: 一、虚拟域名: 如上

2018-01-27 11:46:18 2145

原创 Ambari注册机器(Host Confirm)时遇到的两个问题(Centos7)

1、在Installing这步卡了好久,查看/var/log/ambari-server/ambari-server.log后发现如下错误: 解决方法:进入/var/run/ambari-server,手动创建bootstrap文件夹,并对其添加owner为ambari,即命令:chown ambari bootstrap,然后重新启动ambari-server restart,就好了。

2018-01-08 17:25:54 10360 6

原创 Ambari成功启动,但是浏览器中无法显示

安装Ambari时,在终端通过ambari-server start启动后,显示启动successfully,但是在浏览器中通过http://sy-001.hadoop:8080/却无法显示,查看启动日志后发现,报错Counld not initialize class javax.crypto.jceSecurity,查资料后发现:JCE,Java Cryptography Extension,

2017-12-26 13:37:10 3667 1

原创 webservice客户端调用出错

用MyEclipse中的JAX-WS发布的Webservice服务,服务端使用了Mysql数据库,需要添加mysql驱动jar包,服务端测试成功后,部署同样成功,但是客户端调用却总显示无法找到mysql驱动jar包,而我的服务端和客户端都是添加了该包的,最后发现,服务器上也需要添加该驱动包,即只需将Mysql驱动包添加到Tomcat安装目录下的lib目录里,客户端便可正常调用。

2017-12-26 13:13:53 3137

转载 SQL注入详解

原文地址:http://www.cnblogs.com/rush/archive/2011/12/31/2309203.html1.1.1 摘要日前,国内最大的程序员社区CSDN网站的用户数据库被黑客公开发布,600万用户的登录名及密码被公开泄露,随后又有多家网站的用户密码被流传于网络,连日来引发众多网民对自己账号、密码等互联网信息被盗取的普遍担忧。网络安全成为了现在互联网的焦点,这也恰恰触动了每

2017-12-20 22:15:51 2088

原创 java几种数据转换

/** * 将两个字节转换成整型 * @param input the input * @return the int from the array */ public static int getIntFrom2ByteArray(final byte[] input) { final byte[] result = new byte

2017-12-19 11:27:41 2498

原创 webservice发布报错:javax.xml.ws.WebServiceException: Unable to create JAXBContext

网上有很多说法,比如方法的返回值和参数类型的要求之类的,但是都没法解决我的问题,以下是我的问题以及解决方法。 如图,因为我的JudgeTime方法抛出了一个异常,所以没法发布,去掉这个,换成try()catch就成功发布了。

2017-12-02 13:21:16 4118

转载 关联分析之Apriori算法

1.数据挖掘与关联分析数据挖掘是一个比较庞大的领域,它包括数据预处理(清洗去噪)、数据仓库、分类聚类、关联分析等。关联分析可以算是数据挖掘最贴近我们生活的一部分了,打开卓越亚马逊,当挑选一本《Android4高级编程》时,它会不失时机的列出你可能还会感兴趣的书籍,比如Android游戏开发、Cocos2d-x引擎等,让你的购物车又丰富了些,而钱包又空了些。关联分析,即从一个数据集中发现项之间的隐

2017-11-19 16:02:53 2835

原创 kafka客户端启动出错

本地虚拟机搭建的kafka伪分布式,三个broker对应的配置信息分别对应config中的server.properties,server-1.properties,server-2.properties 启动完zookeeper后,分别通过: bin/kafka-server-start.sh config/server.properties bin/kafka-server-start.s

2017-11-13 17:49:02 4470

原创 indices should be one-based and in ascending order

MLUtils.loadLibSVMFile数据集标记的index是从1开始,如下:此时可以正确执行,输出:当index从0开始时:便会报错:

2017-10-30 11:56:09 3202

原创 windows安装Jupyter出错:error: Unable to find vcvarsall.bat

Windows通过:pip3 install jupyter 安装Jupyter时,报错: building ‘zmq.libzmp’extension error: Unable to find vcvarsall.bat解决方法:去这里下载Visual C++ 2015 Build Tools,之后直接默认安装即可,安装时间会有些长,安装成功后重新 pip3 install jupyte

2017-10-08 13:50:58 2226

原创 Windows安装lxml

首先在Pycharm中直接安装,安装失败 其次在命令行通过pip安装,仍旧失败,经查询发现在Windows上直接安装lxml几乎都是失败的,正确的安装方式为: 1、去网站lxml下载对应的lxml的.whl文件,而对应的版本应该如何看呢,首先打开命令窗口,执行python,接着在python shell中执行: import pip;print(pip.pep425tags.get_suppo

2017-10-05 16:07:32 2336

原创 Hadoop下TreeMap的使用

最近在Hadoop下写Topk算法时,用到了TreeMap,它的API很适合该算法,比如: TreeMap

2017-10-03 17:17:40 2597

原创 Python中的__name__属性

每一个Python模块(.py文件)都会有一个”__name__”属性,所以我们可以在任何模块中通过print __name__来打印当前的__name__值。 在本模块主动执行时__name__ =__main__,被其它模块调用执行时(这里假设本模块为test1.py,被test2.py模块调用执行) ,__name__ = test1如下图: com.driver是test1所在包

2017-09-22 17:10:59 2325

原创 linux下查看Python安装路径

Centos下是原生支持Python的,在eclipse中安装Python插件后需要关联安装路径,可通过以下命令查看Python安装路径 python import sys print sys.path

2017-09-21 15:30:37 23737

原创 粗粒度与细粒度

个人理解粗粒度与细粒度的关系就是一个由粗糙到细化的过程。比如 在java中我们为了类的高复用性,经常会把一个功能复杂的类(粗粒度)细分为几个简单的功能单一的类(细粒度),这就是一个细粒度的设计模式。再比如 我们设计数据库时,原则上应该尽量减少表的数量以及表之间的连接,为此,能够设计为一个表的就不会将其分开为多个表。这就是一个粗粒度的设计模式。

2017-09-13 19:56:57 6967

转载 Linux中“is not in the sudoers file”解决方法

最近虚拟机装了个RedHat Enterprise Server 5,用惯了Ubuntu,觉得不太适应。 当在终端执行sudo命令时,系统提示“cuser is not in the sudoers file”:$ sudo lsPassword:cuser is not in the sudoers file.  This incident will be reported. 其实就

2017-09-11 17:44:37 2861

原创 hive启动报错: Hive metastore database is not initialized

解决方法:执行 schematool -dbType mysql -initSchema即可

2017-09-08 22:22:07 2792

原创 Linux学习中遇到的命令积累

图形界面的安装: 第一步:yum -y groupinstall “X Window System” 第二步: yum grouplist查看可装的界面 第三部:yum groupinstall “GNOME Desktop”这里GNOME Desktop为一个可装界面 即可通过startx启动图形界面查看NDS cat /etc/resolv.conf查看网关 netstat...

2017-09-04 20:45:54 2069

原创 鸟哥私房菜中的“od -t oCc /etc/issue”的意思

对这块有些困惑,搞了搞最后发现,其实 od -t oCc /etc/issue 等价于 od -t oC -t c /etc/issue,什么意思呢,首先,找男人时(man od)会发现: 即:C代表的是char的size当我们执行 od -t oc /etc/issue 时,如下图: 会发现上下无法对应上,这是因为,od命令默认是按Int读取数字的,而Int是按4字节分割的,一行只有

2017-08-17 00:02:05 4676 1

原创 Linux(centos5.5)中shutdown命令出错:bash: shutdown: command not found

这里是用户权限的问题,只需切换到root用户即可,而且必须通过”su - root”来切换,而不是”su“切换,因为“ su ”只是切换了用户并没有切换环境,而“su - root”同时切换了用户与环境

2017-08-14 15:01:42 2457

原创 AS构建项目时出错:No resource found that matches android:TextApprence.Material.Widget.Button.Inverse

Android studio上运行构建好的项目时,出现:com.android.support/appcompat-v7/23.0.1/res/values-v23/values-v23.xml错因:这是在项目运行时没有找到相关资源,查看项目build.gradle发现我的项目的compileSdkVersion=22,但是dependencies对应的appcompat为: dependenci

2017-08-03 22:02:34 352

原创 Gradle sync failed: Plugin with id 'com.novoda.bintray-release' not found

从github上下载moudle作为工程的一个library导入时出现该错误解决方法:在工程的 build.gradle中添加: dependencies { classpath ‘com.novoda:bintray-release:0.3.4’ }

2017-08-02 23:07:52 1903

原创 Error opening registry key'software\Javasoft\Java Runtime Environment' Error

目前本人遇到的出现过两次同样的错,完整的错误如下:Error opening registry key’software\Javasoft\Java Runtime Environment’ Error: could not find java.dll Error: could not find Java SE Runtime Environment’一种情况是在重新安装jdk后在控制台通过ja

2017-07-17 19:37:53 3894

原创 android studio 启动报错:could not install *smartsocket* listener: cannot bind to 127.0.0.1:5037:

原因 : 5037端口被占用解决方法:找到占用5037端口的进程、杀掉该进程win+R打开cmd进入命令行模式,一、输入netstat -ano可以看到占用5037端口的进程编号是5008二、输入tasklist|findstr “5008”从而可以看出是360手机助手的原因,在任务管理器中将其结束即可重新启动android studio即可

2017-07-17 16:23:52 427

原创 导致Gradle DSL method not found: 'compile()' 的原因及解决方法

导致Gradle DSL method not found: ‘compile()’ 的原因及解决方法这是我们在使用android studio 时会遇到的错误原因:build.dradle中的dependencies{}内部多个compile在同一行导致的。 解决方法:换行即可,使每一行只能有一个compile。

2017-07-17 15:10:56 8289

原创 android数据存储的四种方案(三)

读写Json格式的数据json格式的数据我们经常用于网络与客户端之间的数据交流,json相对于传统的xml,更加简洁,所以应用也越来越广泛,也常被用于本地存储 Android SDK用于读写JSON格式的数据的主要的两个类:JsonWriter和JsonReader,可以处理json对象和json数组,处理json对象的代码必须放在beginObject方法和endObject方法中,处理json

2016-02-08 00:42:29 2223

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除