2016年05月_xinlangtianxia

原创 ETL与数据仓库的区别（二）

ETL常与数据仓库相关.那么就需要知道数据仓库是什么数据仓库具体概念可以参考百度百科/英文原文.此处不做理解我所理解的数据仓库字面拆分：数据仓库用来装数据的一个大的集合,其中数据的格式是什么样子的,不用管,只要有“一个东东”来装这个数据即可具体的数据仓库是一个理论上面概念,具体的落实到实地,那么我们就是需要各种软件或工具来实现

2016-05-30 12:06:51 3635 1

原创 ETL是什么(一)

首先我们必须知道ETL是什么？ETL是英文 Extract-Transform-Load 的缩写，用来描述将数据从来源端经过抽取（extract）、转换（transform）、加载（load）至目的端的过程。ETL是一个完整的过程,它不是一个具体的技术,也不是一个具体的实现方式,就是一个处理的过程.

2016-05-30 12:00:40 559

原创 flume版本的选择

jdk1.7.48 +flume 1.6.0即可

2016-05-21 21:21:00 2599

转载 flume学习（十一）：如何使用Spooling Directory Source

问题导读1.如何理解将FTP上的信令数据汇聚到HDFS上去存储？2.使用Spooling Directory Source的时候同时读写一个文件会怎样？最近在弄一个信令数据汇聚的事情，主要目的是把FTP上的信令数据汇聚到HDFS上去存储。逻辑是这样的：把FTP服务器上的文件下载到一台主机上，然后SCP到另外一台主机上的Spooling Dire

2016-05-21 21:10:45 609

转载 flume学习（十）：使用Morphline Interceptor

问题导读1.Morphline是干嘛用的？2.如何将message属性添加到event的headers当中？Morphline是干嘛用的？简单点说就是一个ETL工具，详细介绍：http://kitesdk.org/docs/current/ ... ReferenceGuide.html这里有一个注意点，是和cloudera search版本有关

2016-05-21 21:09:50 615

转载 flume学习（九）：自定义拦截器

问题导读1.如何添加拦截器RegexExtractorExtInterceptor？2.改动的内容中是如何增加两个配置参数？还是针对学习八中的那个需求，我们现在换一种实现方式，采用拦截器来实现。先回想一下，spooldir source可以将文件名作为header中的key:basename写入到event的header当中去。试想一下，如果

2016-05-21 21:08:55 1051

转载 flume学习（七）、（八）：如何使用event header中的key值以及自定义source

问题导读1.如何使用event header中的key值？2.如何部署扩展自定义的spooling directory source？前面我们已经说到我们在header中添加了一个key为：flume.client.log4j.logger.source ，然后有两个应用程序，一个设置为app1,一个设置为app2。现在有这么一个需求，要将ap

2016-05-21 21:07:48 1716

转载 flume学习（六）：使用hive来分析flume收集的日志数据

问题导读1.遇到无法转换成JSON对象的字符串时应如何处理？2.遇到非JSON格式输入的时候应如何处理？前面已经讲过如何将log4j的日志输出到指定的hdfs目录，我们前面的指定目录为/flume/events。如果想用hive来分析采集来的日志，我们可以将/flume/events下面的日志数据都load到hive中的表当中去。如果了解hi

2016-05-21 21:06:12 406

转载 flume学习（五）：flume将log4j日志数据写入到hdfs

问题导读1.将log4j的日志输出到agent的日志文件当中，应如何配置文件？2.把log4j的日志直接采集输出到hdfs中去，如何修改flume.conf中sink的配置？在第一篇文章中我们是将log4j的日志输出到了agent的日志文件当中。配置文件如下：tier1.sources=source1tier1.chann

2016-05-21 21:04:47 403

转载 flume学习（四）：Flume Channel Selectors使用

问题导读1、怎样将不同项目的的日志输出到不同的channel？2、如何理解一个sink为hdfs,一个sink为logger的拓扑结构？3、怎样在Log4jExtAppender.java类里扩展一个参数？前几篇文章只有一个项目的日志，现在我们考虑多个项目的日志的收集，我拷贝了一份flumedemo项目,重命名为flumedemo2,添加了一个WriteLog2

2016-05-21 21:02:56 976

转载 flume学习（三）：Flume Interceptors的使用

问题导读1、如何理解flume拦截器？2、如何使用regex_filter和 timestamp这两个拦截器来实现一个较强的功能？3、怎样为source1添加了两个拦截器？对于flume拦截器,我的理解是：在app(应用程序日志)和 source 之间的，对app日志进行拦截处理的。也即在日志进入到source之前，对日志进行一些包装、清新过滤等等动作。

2016-05-21 21:01:40 373

转载 flume学习（二）：如何找到cm安装的flume的配置文件

问题导读1、如何将log4j的日志输出到agent的日志文件当中？2、怎么将sink的type由logger变为hdfs？3、报错？你给目录授权了吗？通过CM安装好flume-ng之后，可以在管理界面上修改flume.conf配置，但是 /etc/flume-ng/conf目录下的flume.conf文件却空空如也。由于对CM的运行原理不了解，搞不明白我修改的配

2016-05-21 21:00:07 661

转载 flume学习（一）：log4j直接输出日志到flume

问题导读1、如何让log4j直接输出日志到flume？2、如何写一个简单的测试类来测试呢？3、如何看到log4j的日志是否输出到了flume中？log4j.properties配置：log4j.rootLogger=INFOlog4j.category.com.besttone=INFO,flumelog4j.append

2016-05-21 20:58:34 464

原创 flume的级别的架构使用--实际场景应用--可以用于分布式的服务形式的日志采集

首先这个是我的原创文章,也参考了网络上的各位大神的文章加上自己的总结,欢迎各位大神指出错误!我们共同进步！flume级别的架构使用（常用模式）直接上干货,文字性的描述有1.介绍：log是各个分布式服务的日志,可用从web的service产生的logSource组件（每一个的）都是采集不同的service的服务的logchannel组件（每一个的）都是接收不同sour

2016-05-21 13:07:13 1676

转载在使用Spark Streaming向HDFS中保存数据时，文件内容会被覆盖掉的解决方案

我的Spark Streaming代码如下所示：全选复制放进笔记val lines=FlumeUtils.createStream(ssc,"hdp2.domain",22222,StorageLevel.MEMORY_AND_DISK_SER_2)val words = lines.filter(examtep(_))words.foreachRDD(exam(_))//some

2016-05-18 00:42:59 7124

原创 kafka丢数据和数据重复

首先这个是我的原创文章,也参考了网络上的各位大神的文章加上自己的总结,欢迎各位大神指出错误!我们共同进步！1.kafka的数据交换是在哪里完成？kafka设计的初衷是尽一切努力在内存中完成数据交换,无论是对外的系统,或是内部存底层的操作系统的交互.如果Producer和Consumer之间生产和消费进度上配合得当，完全可以实现数据交换零I/O,但是这个几乎不可能2.kafka缓

2016-05-12 21:21:27 18025 2

我是一个小学生