自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Make progress step by step everyday.....

主要从事JavaEE,Hadoop,Spark方面的工作,业余兴趣爱好NLP,DM,ML和DL相关方面的技术

  • 博客(18)
  • 资源 (6)
  • 收藏
  • 关注

转载 【Flume】【源码分析】深入flume-ng的三大组件——source,channel,sink

转载:http://blog.csdn.net/simonchi/article/details/43308677概览flume-ng中最重要的核心三大组件就是source,channel,sinksource负责从源端收集数据,产出eventchannel负责暂存event,以备下游取走消费sink负责消费通道中的event,写到最终的输出端上

2015-08-21 18:38:59 908

转载 Flume学习(五):Flume Channel Selectors使用

转载:http://blog.csdn.net/xiao_jun_0820/article/details/38116103前几篇文章只有一个项目的日志,现在我们考虑多个项目的日志的收集,我拷贝了一份flumedemo项目,重命名为flumedemo2,添加了一个WriteLog2.java类,稍微改动了一下JSON字符串的输出,将以前requestUrl中的"reporter-api

2015-08-21 17:40:07 573

转载 Flume学习(四):Flume Interceptors的使用

对于flume拦截器,我的理解是:在app(应用程序日志)和 source 之间的,对app日志进行拦截处理的。也即在日志进入到source之前,对日志进行一些包装、清新过滤等等动作。官方上提供的已有的拦截器有:Timestamp InterceptorHost InterceptorStatic InterceptorRegex Filtering Int

2015-08-21 17:17:56 537

转载 Spark Streaming+ FlumeNG整合

转自:http://blog.csdn.net/u010398018/article/details/36634059SparkStreaming 提供一个处理Flume流的事件,[html] view plaincopyclass FlumeUtils    def createStream(ssc: Str

2015-08-21 14:03:32 377

转载 Flume-ng 自定义sink实现和属性注入

转自:http://www.aboutyun.com/thread-7884-1-1.html1.如何实现flume端自定一个sink,来按照我们的规则来保存日志?2.想从flume的配置文件中获取rootPath的值,该如何配置?最近需要利用flume来做收集远端日志,所以学习一些flume最基本的用法。这里仅作记录。远端日志收集的整体思路是远端自定义

2015-08-21 13:48:39 530

转载 Flume-ng-extends的应用

Flume-ng-extends的应用目的:  这个可以tail dir 文件,监听文件目录写入事件,只要往这个目录写入文件就能触发首先需要flume-ng-extends:从获取源代码   https://github.com/jinoos/flume-ng-extends,maven编译打包将flume-ng-extends-0.0.1-SNAPSHOT.jar,另外还

2015-08-21 13:41:03 543

转载 Flume-ng 数据发送速度限制

Flume-ng 数据发送速度限制转自:http://blog.csdn.net/desilting/article/details/27081357   按理说,应该在sink端限制数据的发送速度,但flume-ng提供了非常便利的interceptor模式,因此本文,就只是在source端简单的实现了对数据发送速度的限制。[java] view

2015-08-21 13:39:05 1965

转载 flumeng收集日志并存储到HDFS

flumeng收集日志并存储到HDFS转载:http://blog.csdn.net/lskyne/article/details/37567489两台机器agent1收集日志,传送到agent3,agent3上传日志到HDFSagent1配置:[plain] view plaincopyagent1.sources=

2015-08-21 13:35:28 696

转载 Flume-ng+Kafka+Storm处理日志

转载:http://blog.csdn.net/luyee2010/article/details/41858841场景分析主要是利用apache的访问日志来进行分析统计 如用户的IP来源,来自哪个国家或地区,用户使用的Os,浏览器等信息,以及像搜索的热词等信息的统计 这里日志信息如下24.25.135.19 - - [1-01-2011:06:20:31 -0500]

2015-08-21 13:16:09 850

转载 Flume 收集Nginx日志到Hdfs Tail-to-hdfs sink

转载URL:http://blog.csdn.net/luyee2010/article/details/22159445nginx,access.log日志约8000条/s,每100w条数据约253M,需要2minagent1.sources = source1agent1.sinks = sink1agent1.channels = channel1#

2015-08-21 11:54:57 612

转载 flume-ng+Kafka+Storm+HDFS 实时系统搭建

转载:http://blog.csdn.net/weijonathan/article/details/18301321 和 http://www.51studyit.com/html/notes/20140312/14.html一直以来都想接触Storm实时计算这块的东西,最近在群里看到上海一哥们罗宝写的Flume+Kafka+Storm的实时日志流系统的搭建文档,自己也跟着

2015-08-11 10:38:48 513

转载 Hadoop和大数据:60款顶级开源工具

2015-08-10 CSDN大数据说到处理大数据的工具,普通的开源解决方案(尤其是Apache Hadoop)堪称中流砥柱。弗雷斯特调研公司的分析师Mike Gualtieri最近预测,在接下来几年,“100%的大公司”会采用Hadoop。Market Research的一份报告预测,到2011年,Hadoop市场会以58%的年复合增长率(CAGR)高速增长;到2020年,市场产值会

2015-08-10 18:34:14 1951

转载 Zookeeper资料整理

Zookeeper源码分析zookeeper源码分析:对leader选举过程分析的纠正zookeeper源码分析:Leader与Follower同步数据流程zookeeper源码分析:FastLeader选举算法zookeeper源码分析:工作原理概述ZooKeeper客户端地址列表的随机原理ZooKeeper 会话超时ZooKeeper 数据模型ZooKeeper Watcher

2015-08-05 19:01:45 545

转载 solr4的solr-ik插件

solr4的solr-ik插件solr4中添加中文分词ik。1.首先从https://code.google.com/p/ik-analyzer/下载IK Analyzer 2012FF_hf1_source.rar打包成jar包,然后放入到solr程序中WEB-INF/lib/下。2.这样做有一个很不方便的地方就是,每次我们要修改词库,我们都要重新打包,很不方便。

2015-08-05 18:53:48 761

转载 IK,ansj,mmseg4j分词性能比较

IK,ansj,mmseg4j分词性能比较awnuxkjy 2013-05-25 18:27 中文分词, 搜索 5,163 人阅读 抢沙发  关键字: Ansj中文分词 ikanalyzer ikanalyzer中文分词 mmseg4j mmseg4j中文分词 中文分词 中文分词性能比较下载ik最新版本:IK Analyer 2012-FF hotfix 1

2015-08-05 17:57:54 1490

转载 文本挖掘学习资料

http://blog.csdn.net/yangliuy/article/details/8447886数据挖掘-基于贝叶斯算法及KNN算法的newsgroup18828文档分类器的JAVA实现(上)数据挖掘-基于贝叶斯算法及KNN算法的newsgroup18828文档分类器的JAVA实现(下)数据挖掘-基于Kmeans算法、MBSAS算法及DBSCAN算

2015-08-05 17:38:57 800

原创 学习笔记11:Scala中伴生类和伴生对象中Apply方法的应用

class ApplyTest { def apply() = println("I am into Spark so much!!!.....class....") def haveATry { println("Have a try on apply!") }}object ApplyTest { def apply() = { println("I am

2015-08-04 21:52:37 682

转载 进程、线程与JVM、CLR

进程、线程与JVM、CLRhttp://blog.csdn.net/ghj1976/article/details/5481038JVM和JRE浅谈 http://blog.csdn.net/liufeng_cp/archive/2008/07/18/2674317.aspxJava多线程编程总结 http://lavasoft.blog.51cto

2015-08-04 10:31:25 445

Struts2 + Spring + ibatis

Struts2 + Spring + ibatis 比较完整的Demo,入门学习

2014-12-14

SSH整合分页Demo入门

SSH整合分页Demo入门

2014-10-26

ajax源代码

一个很不错ajax例子demo,代码中主要涉及的技术有ajax,xml,js,servle等,技术的综合使用,让你跟深刻的了解ajax原理

2013-04-11

EXt 学习API

EXt 学习API 个人感觉不错,而且是中文版的!

2013-04-08

java面试题

java面试题:包括有:代码与编程题,XML ,IO,线程类,Socket,数据库知识等

2013-04-08

java设计模式(第二版)

JAVA设计模式,一本非常不错的书!是英文版图书,我个人觉得不错,我自己读的是中文版,但是中文版的java设计模式,不完整!

2013-04-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除