- 博客(6)
- 资源 (1)
- 收藏
- 关注
原创 LDA文档主题发现R
1.# 加载rJava、Rwordseg、tm、lda库 library(rJava); library(Rwordseg); library("lda", lib.loc="~/R/win-library/3.3")library("tm", lib.loc="~/R/win-library/3.3")2.# == 读入数据 lecture=read.csv("E:\\worldcup
2017-05-09 11:28:00 1716 5
原创 4.Flume三大组件Source、channel、Sink常用
参考:http://flume.apache.org/FlumeUserGuide.html#flume-sources1.Flume SourceSource类型 说明Avro Source 支持Avro协议(实际上是Avro RPC),内置支持 Thrift Source 支持Thrift协议,内置支持 Exec Source 基于Unix的command在标准输出上生产数据 J
2017-05-02 11:34:35 3530
原创 3.Flume简单应用-netcat
1.安装netcat rpm -ivh ./*.rpm重启xineted./etc/rc.d/init.d/xineted restart2.使用flume命令$ bin/flume-ng Usage: bin/flume-ng <command> [options]...commands: agent run a Flume agentglobal
2017-05-02 11:09:06 1430
原创 2.Flume安装配置
1.解压到目录tar -zxf flume-ng-1.5.0-cdh5.3.6.tar.gz -C /opt/modules/ 2.配置 (1)配置conf目录下的flume.sh,添加jdk路径 echo "$JAVA_HOME" export JAVA_HOME=/opt/modules/jdk1.7.0_67(2)Flume默认没有HDFS的Jar包,所以要把HDFSjar包导入到Flum
2017-05-02 10:18:33 401
原创 1.Flume概念,功能,架构
1.Flume概念和功能 Flume是一种分布式,可靠和可用的服务,用于高效收集,聚合和移动大量日志数据。 它具有基于流数据流的简单灵活的架构。 它具有可靠的可靠性机制和许多故障转移和恢复机制的强大和容错能力。 它使用一个简单的可扩展数据模型,允许在线分析应用程序。 Flume是Cloudera公司开发的用于实时收集服务器(apache/ngnix等)日志数据的框架,Flume很
2017-05-01 13:06:51 3782
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人