- 博客(17)
- 资源 (18)
- 收藏
- 关注
原创 flume自定义interceptor和hbase sink
在flume的实际应用中,可能会遇到对日志进行简单的过滤和处理。flume在source端有其内置的interceptor类可以对主机、IP、静态标记做处理,如果想自定义处理逻辑该如何处理?在不规则的日志数据进入hbase之前想做处理又该如何处理?1.自定义source在eclipse(或Myeclipse)中,引入flume的jar包(下载flume解压后的lib目录中),编写自定义类,
2016-01-29 15:55:33 1599
转载 flume实际应用架构图
网上看的感觉不错,收藏一下。采用软连接链接日志源文件,source端使用spooldir,根据是否需要持久化选择channel类型内存和文件,应该再加上一个JDBC。sink端使用avro协议发送至下一个agent。
2016-01-29 11:08:15 697
转载 Linux软连接和硬链接
1.Linux链接概念Linux链接分两种,一种被称为硬链接(Hard Link),另一种被称为符号链接(Symbolic Link)。默认情况下,ln命令产生硬链接。【硬连接】硬连接指通过索引节点来进行连接。在Linux的文件系统中,保存在磁盘分区中的文件不管是什么类型都给它分配一个编号,称为索引节点号(Inode Index)。在Linux中,多个文件名指向同一索引节点是存在的
2016-01-29 10:55:55 657
转载 JAVA正则表达式:Pattern类和Mathcer类详解
java.util.regex是一个用正则表达式所订制的模式来对字符串进行匹配工作的类库包。它包括两个类:Pattern和Matcher Pattern 一个Pattern是一个正则表达式经编译后的表现模式。 Matcher 一个Matcher对象是一个状态机器,它依据Pattern对象做为匹配模式对字符串展开匹配检查。 首先一个Pattern实例订制了一个所用语法与PERL的类似的正则表达式经编
2016-01-27 15:21:27 1486
原创 HDFS报错:Connection refused!
在华为大数据平台FI C50上查看hdfs上的数据报错(hdfs dfs -ls /):自己在装其他组件的过程中,重启过多次服务,是不是因为这个原因,于是把namenode节点HDFS服务重启了,重启之后问题解决。
2016-01-27 10:49:23 2821 2
原创 理解Hadoop分布式文件系统HDFS(一)
hdfs-分布式文件系统,既然是分布式文件系统,就必然涉及到网络编程,而网络编程的难度和复杂性是很大的。hdfs在数据读写和节点通讯会涉及到JAVA NIO和RPC机制,所以想要更好的理解hdfs,读懂其源码还是要有这方面相当的知识储备才行。hdfs网上的资料不少,看了那么的架构和原理,内容基本差不多,写这边文章是想记录自己对hdfs的所思所想。1.关于hdfs的特点高容错:在Hadoop
2016-01-26 15:55:29 1063
原创 flume架构介绍!
一。什么是flume? 一个日志收集工具,具有分布式,高可靠,高可用等特点。接受各类型数据发送方,对数据可进行简单的处理,传输到各类数据接收方。二。架构 source
2016-01-20 19:05:05 1183
原创 强大的nc命令(英文说明)!
在命令行输入命令:man nc或nc -h即可查看nc命令的使用说明,前者更为详细,虽说是英文,但用法不难看懂。如下:NAME nc - arbitrary TCP and UDP connections and listensSYNOPSIS nc [-46DdhklnrStUuvzC] [-i interval] [-p source_port]
2016-01-20 11:59:48 1894
原创 impala的原理架构介绍及应用场景
impala概述 由cloudera公司主导开发的大数据实时查询分析工具,宣称比原来基于MapReduce的HiveSQL查询速度提升3~90倍,且更加灵活易用。提供类SQL的查询语句,能够查询存储在Hadoop的HDFS和Hbase中的PB级大数据。查询速度快是其最大的卖点。简言之impala作为大数据实时查询分析工具,具有查询速度快,灵活性高,易整合,可伸缩性强等特点。1
2016-01-15 14:02:40 16678 2
原创 Linux软件安装缺少依赖包解决方法。
在Linux安安装软件总没有在Windows系统下安装软件来的那么干净利落,不同的软件包安装的方式也不同,时常在安装包的时候缺少依赖包导致安装过程被打断,这是一件很让人头疼的事,这几天安装软件一直有这些问题,现在把解决的办法记录下,防止遗忘。第一种:使用yum命令安装,熟悉Linux系统的人对这个命令一定不陌生,它可以自动安装依赖包,网上看到一种比较狠的解决依赖包安装的方法:yum -y
2016-01-14 16:30:44 27846 1
原创 如何查看linux系统安装了哪些服务?
如何查看linux系统安装了哪些服务呢,因不同版本的操作系统可能使用的命令不一样或者有些命令在某些操作系统不可用,现列举一些常用查看命令(基于我的linux版本)。我的操作系统版本如下:1.service --status-all 输出结果较多,截取部分。比如查看MySQL服务安装了没有,可从列出的信息中查找。2.chkconfig --list
2016-01-13 10:37:55 44019
原创 Windows系统下查看JDK的版本和安装路径!
在window命令行界面输入:java -version命令查看版本,java -verbose查看安装路径(在输入结果的最后看路径),如下图所示:
2016-01-12 12:17:09 29365
原创 如何查看Linux版本信息
1.lsb_release -a2.cat /proc/version或cat /etc/issue3.查看某个命令的使用方法man 命令
2016-01-11 12:29:55 624
转载 HBase原理和设计
简介HBase —— Hadoop Database的简称,Google BigTable的另一种开源实现方式,从问世之初,就为了解决用大量廉价的机器高速存取海量数据、实现数据分布式存储提供可靠的方案。从功能上来讲,HBase不折不扣是一个数据库,与我们熟悉的Oracle、MySQL、MSSQL等一样,对外提供数据的存储和读取服务。而从应用的角度来说,HBase与一般的数据库又有所区别,H
2016-01-08 14:38:15 1444
原创 学会使用github!
github是一个软件开发的分布式版本控制工具,和SVN功能类似。越来越多的公司使用github做版本控制,今天也是刚刚学会使用,所以记录下学习历程,怕忘记。第一步:首先去github官网注册一个账号。github官网如下图:另外说一点填邮箱的时候尽量是国外的邮箱比如雅虎的,我开始用的163的邮箱,验证邮件一直没有收到。第二步:创建仓库接下来,如下所示:
2016-01-07 13:23:25 606
原创 浅谈socket长连接和短连接的区别!
能用一句大白话说清楚的事,绝不用专业词汇说两句。先看看一般的socket通讯模型是怎么样的: 建立连接①客户端---------------------服务器端 通讯②客户端---------------------服务器端
2016-01-06 12:54:52 3148
原创 json依赖jar包缺少导致异常!
在做Java web工程的时候,后端构建json字符串返回给前端,要使用json相关的jar包,本以为只需要导入json的jar包即可,但json包和其他的包有依赖关系,比如没有导入commons-lang-xx.jar包,会引起java.lang.NoClassDefFoundError错误。如下所示:从错误提示可看出缺少commons-lang-xx.jar包,如果你导入了jar包
2016-01-05 09:50:41 1134
yarn-utils.py
2016-02-25
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人