自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

A coder of life

记录bug人生

  • 博客(17)
  • 资源 (18)
  • 收藏
  • 关注

原创 flume自定义interceptor和hbase sink

在flume的实际应用中,可能会遇到对日志进行简单的过滤和处理。flume在source端有其内置的interceptor类可以对主机、IP、静态标记做处理,如果想自定义处理逻辑该如何处理?在不规则的日志数据进入hbase之前想做处理又该如何处理?1.自定义source在eclipse(或Myeclipse)中,引入flume的jar包(下载flume解压后的lib目录中),编写自定义类,

2016-01-29 15:55:33 1599

转载 flume实际应用架构图

网上看的感觉不错,收藏一下。采用软连接链接日志源文件,source端使用spooldir,根据是否需要持久化选择channel类型内存和文件,应该再加上一个JDBC。sink端使用avro协议发送至下一个agent。

2016-01-29 11:08:15 697

转载 Linux软连接和硬链接

1.Linux链接概念Linux链接分两种,一种被称为硬链接(Hard Link),另一种被称为符号链接(Symbolic Link)。默认情况下,ln命令产生硬链接。【硬连接】硬连接指通过索引节点来进行连接。在Linux的文件系统中,保存在磁盘分区中的文件不管是什么类型都给它分配一个编号,称为索引节点号(Inode Index)。在Linux中,多个文件名指向同一索引节点是存在的

2016-01-29 10:55:55 657

转载 JAVA正则表达式:Pattern类和Mathcer类详解

java.util.regex是一个用正则表达式所订制的模式来对字符串进行匹配工作的类库包。它包括两个类:Pattern和Matcher Pattern 一个Pattern是一个正则表达式经编译后的表现模式。 Matcher 一个Matcher对象是一个状态机器,它依据Pattern对象做为匹配模式对字符串展开匹配检查。 首先一个Pattern实例订制了一个所用语法与PERL的类似的正则表达式经编

2016-01-27 15:21:27 1486

原创 HDFS报错:Connection refused!

在华为大数据平台FI C50上查看hdfs上的数据报错(hdfs dfs -ls /):自己在装其他组件的过程中,重启过多次服务,是不是因为这个原因,于是把namenode节点HDFS服务重启了,重启之后问题解决。

2016-01-27 10:49:23 2821 2

原创 理解Hadoop分布式文件系统HDFS(一)

hdfs-分布式文件系统,既然是分布式文件系统,就必然涉及到网络编程,而网络编程的难度和复杂性是很大的。hdfs在数据读写和节点通讯会涉及到JAVA NIO和RPC机制,所以想要更好的理解hdfs,读懂其源码还是要有这方面相当的知识储备才行。hdfs网上的资料不少,看了那么的架构和原理,内容基本差不多,写这边文章是想记录自己对hdfs的所思所想。1.关于hdfs的特点高容错:在Hadoop

2016-01-26 15:55:29 1063

原创 flume架构介绍!

一。什么是flume?        一个日志收集工具,具有分布式,高可靠,高可用等特点。接受各类型数据发送方,对数据可进行简单的处理,传输到各类数据接收方。二。架构  source

2016-01-20 19:05:05 1183

原创 强大的nc命令(英文说明)!

在命令行输入命令:man nc或nc -h即可查看nc命令的使用说明,前者更为详细,虽说是英文,但用法不难看懂。如下:NAME     nc - arbitrary TCP and UDP connections and listensSYNOPSIS     nc [-46DdhklnrStUuvzC] [-i interval] [-p source_port]

2016-01-20 11:59:48 1894

原创 impala的原理架构介绍及应用场景

impala概述  由cloudera公司主导开发的大数据实时查询分析工具,宣称比原来基于MapReduce的HiveSQL查询速度提升3~90倍,且更加灵活易用。提供类SQL的查询语句,能够查询存储在Hadoop的HDFS和Hbase中的PB级大数据。查询速度快是其最大的卖点。简言之impala作为大数据实时查询分析工具,具有查询速度快,灵活性高,易整合,可伸缩性强等特点。1

2016-01-15 14:02:40 16678 2

原创 Linux软件安装缺少依赖包解决方法。

在Linux安安装软件总没有在Windows系统下安装软件来的那么干净利落,不同的软件包安装的方式也不同,时常在安装包的时候缺少依赖包导致安装过程被打断,这是一件很让人头疼的事,这几天安装软件一直有这些问题,现在把解决的办法记录下,防止遗忘。第一种:使用yum命令安装,熟悉Linux系统的人对这个命令一定不陌生,它可以自动安装依赖包,网上看到一种比较狠的解决依赖包安装的方法:yum -y

2016-01-14 16:30:44 27846 1

原创 如何查看linux系统安装了哪些服务?

如何查看linux系统安装了哪些服务呢,因不同版本的操作系统可能使用的命令不一样或者有些命令在某些操作系统不可用,现列举一些常用查看命令(基于我的linux版本)。我的操作系统版本如下:1.service --status-all 输出结果较多,截取部分。比如查看MySQL服务安装了没有,可从列出的信息中查找。2.chkconfig --list

2016-01-13 10:37:55 44019

原创 Windows系统下查看JDK的版本和安装路径!

在window命令行界面输入:java -version命令查看版本,java -verbose查看安装路径(在输入结果的最后看路径),如下图所示:

2016-01-12 12:17:09 29365

原创 如何查看Linux版本信息

1.lsb_release -a2.cat /proc/version或cat /etc/issue3.查看某个命令的使用方法man 命令

2016-01-11 12:29:55 624

转载 HBase原理和设计

简介HBase —— Hadoop Database的简称,Google BigTable的另一种开源实现方式,从问世之初,就为了解决用大量廉价的机器高速存取海量数据、实现数据分布式存储提供可靠的方案。从功能上来讲,HBase不折不扣是一个数据库,与我们熟悉的Oracle、MySQL、MSSQL等一样,对外提供数据的存储和读取服务。而从应用的角度来说,HBase与一般的数据库又有所区别,H

2016-01-08 14:38:15 1444

原创 学会使用github!

github是一个软件开发的分布式版本控制工具,和SVN功能类似。越来越多的公司使用github做版本控制,今天也是刚刚学会使用,所以记录下学习历程,怕忘记。第一步:首先去github官网注册一个账号。github官网如下图:另外说一点填邮箱的时候尽量是国外的邮箱比如雅虎的,我开始用的163的邮箱,验证邮件一直没有收到。第二步:创建仓库接下来,如下所示:

2016-01-07 13:23:25 606

原创 浅谈socket长连接和短连接的区别!

能用一句大白话说清楚的事,绝不用专业词汇说两句。先看看一般的socket通讯模型是怎么样的:                      建立连接①客户端---------------------服务器端                        通讯②客户端---------------------服务器端

2016-01-06 12:54:52 3148

原创 json依赖jar包缺少导致异常!

在做Java web工程的时候,后端构建json字符串返回给前端,要使用json相关的jar包,本以为只需要导入json的jar包即可,但json包和其他的包有依赖关系,比如没有导入commons-lang-xx.jar包,会引起java.lang.NoClassDefFoundError错误。如下所示:从错误提示可看出缺少commons-lang-xx.jar包,如果你导入了jar包

2016-01-05 09:50:41 1134

Hive权限设置说明

CDH平台,通过hue访问hive,控制库级别,表级别,及列级别的访问权限

2018-07-17

大数据开发工具包-项目构建工具-maven3.5.4

Apache maven3.5.4的版本,项目构建必备工具之一,功能强大。

2018-07-04

大数据开发工具包-版本控制工具-Windows版64位git

版本控制工具git,不同于传统的SVN,git的使用越来越广泛。

2018-07-04

大数据开发工具包-插件工具-IDEA2017.3.5的scala插件

此scala插件对应idea的版本是2017.3.5版本,安装简单。

2018-07-04

大数据开发工具包-文本编辑工具-notepad++

notepad++编辑器可编辑各类文本,包括shell,SQL,txt等等....

2018-07-04

大数据开发工具包-服务器连接工具-XShell

方便好用的连接服务器的工具,必备的大数据服务器连接工具之一。

2018-07-04

nginx_upstream_check_module

nginx后端节点健康检查模块插件,非常好用,淘宝开发。

2016-11-12

pcre-8.39.tar.gz

安装nginx所依赖的包,如果安装了,不用再安装。

2016-11-12

nginx-1.11.5.tar.gz

一款非常流行的负载均衡工具,配置简单易用,功能强大,搭配keepalived做高可用。

2016-11-12

protoc-2.5.0-win32.zip

protobuf 谷歌的轻量级数据交换格式,该工具可以方便的产生java,c等类。

2016-08-30

yarn-utils.py

根据集群计算内存分配,使用前确定已安装pyhon,使用方法(linux环境): python yarn-utils.py -c 32 -m 128 -d 7 -k False -c:核数 -m:内存大小 -d:磁盘数 -k:hbase是否安装。False-没有安装 True-安装

2016-02-25

hbase shell常用命令汇总

总结常用的hbase shell操作命令。

2016-02-15

Python-3.5.1.exe

可执行文件,在windows环境下双击直接执行.

2016-01-12

json相关6个jar包

json解析所需要的几个jar包,总共六个。需要的下载。

2016-01-05

反编译工具jd-gui.exe

很好用的反编译工具,直接用这个工具打开jar包就可以查看源代码了。

2016-01-02

sqldbx数据库连接工具

数据库连接工具,很好用。写sql有提示,速度也挺快。

2016-01-02

mysql-connector-java-5.1.6-bin.jar

Java连接mysql数据的jar包,亲测可用。

2016-01-02

impala快速入门手册

指导新手快速使用impala做数据分析工作。包括常用的命令行和性能优化方法。

2016-01-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除