日志分析系统
文章平均质量分 75
ZK_小姜
这个作者很懒,什么都没留下…
展开
-
Flume的安装和配置
Flume的安装和配置一、Flume的介绍 Flume是Cloudera提供的一个分布式、可靠、和高可用的海量日志聚合的系统,支持在系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。 1.Flume的几个核心概念:event、client、flow、agent、source、channel、sink; 2.Flume原创 2015-08-17 10:35:07 · 1786 阅读 · 0 评论 -
整合storm-hdfs过程中源码学习
前一段整合了stomr-hdfs,但是发现在原有的storm-hdfs-0.9.4.jar中的写入数据的逻辑不满足我们的需求,于是乎需要看源码,然后在源码的基础上改写源码,满足自己的需求。整合storm-hdfs的过程,其实也就是编写storm的拓扑结构,然后调用storm-hdfs-0.9.4.jar中的hdfsBolt,通过配置hdfsBolt的一些与hdfs有关的参数,将数据写入到hdf原创 2015-12-08 12:56:13 · 3122 阅读 · 0 评论 -
Storm配置项详解
参考:Storm配置项详解: http://www.alidata.org/archives/2118|Storm配置项详解Setting up a Storm cluster: http://storm.apache.org/documentation/Setting-up-a-Storm-cluster.htmlTroubleshooting: http://storm.apache.转载 2016-01-13 15:42:59 · 9740 阅读 · 0 评论 -
Hadoop-2.7.1集群环境搭建
由于日志数据量越来越大,数据处理的逻辑越来越复杂,同时还涉及到大量日志需要批处理,当前的flume-kafka-storm-hbase-web这一套流程已经不能满足当前的需求了,所以只能另寻出路,于是想到了Hadoop这个东西。之前的storm是一个基于流式处理的实时分析系统,相比Hadoop的离线批处理各有千秋,两者相比,我有看到一个比较形象的比喻:Hadoop就像是纯净水,一桶一桶地搬,而St原创 2015-11-13 11:44:26 · 4408 阅读 · 3 评论 -
Spark On Yarn集群环境搭建
一、Scala安装下载scala安装包,地址:http://www.scala-lang.org/download/配置环境变量 下载完成后,解压到指定的目录下,在/etc/profile文件中配置环境变量:export SCALA_HOME=/usr/local/jiang/scala-2.10.6export PATH=$PATH:$SCALA_HOME/bin验证scala原创 2016-03-08 19:43:04 · 2979 阅读 · 0 评论 -
Storm-HDFS整合过程中问题解决
前面提到了部署Hadoop的集群环境,因为我们需要用到HDFS,将Storm过来的数据离线存入到HDFS中,然后使用Hadoop从HDFS中取数据进行分析处理。于是乎我们需要整合Storm-HDFS,在整合过程中遇到了许多问题,有的问题可以在网上找到,但是解决方法不一定实用,于是这里分享出来,以便自己学习,同时也为同样遇到相同问题处于困惑中的伙伴提供解决方法。首先, 整合Storm-HDF原创 2015-11-13 17:29:09 · 9656 阅读 · 0 评论 -
Java maven项目整合Redis
1、为什么要使用Redis?Redis是一个key-value存储系统。主要用于解决分布式系统中的多台主从机之间的数据同步和共享问题。2、Redis有哪些特点?1)、redis的数据完全存储在内存中,使用磁盘只用于持久性,所以redis的速度非常快;2)、相比许多键值存储系统,redis拥有较为丰富的数据类型;3)、redis的操作都是原子性的,所以在异步的时候也是安全的;原创 2016-06-01 15:07:05 · 14640 阅读 · 9 评论 -
Flume之监控
Flume作为一个日志收集工具,在数据采集方面,展现出了非常强大的能力。原创 2016-05-30 15:07:04 · 12522 阅读 · 5 评论 -
Zookeeper客户端基本操作java实现——创建连接、创建节点、添加修改节点内容、获取子节点、获取节点数据、删除节点
一、引入Zookeeper包,添加pom依赖 org.apache.zookeeper zookeeper 3.3.6 二、基本操作实现类package com.xgd.log.common;import java.util.List;import java.util.concurrent.CountDownLatch;import or原创 2016-06-23 10:29:55 · 8359 阅读 · 1 评论 -
hadoop的IO和MapReduce优化参数
在MapReduce执行过程中,特别是Shuffle阶段,尽量使用内存缓冲区存储数据,减少磁盘溢写次数;同时在作业执行过程中增加并行度,都能够显著提高系统性能,这也是配置优化的一个重要依据。 下面分别介绍I/O属性和MapReduce属性这两个类的部分属性,并指明其优化方向。1 I/O属性类的优化I/O属性类主要包括在Shuffle阶段中相关的I/O过程的属转载 2016-01-21 11:57:16 · 1183 阅读 · 0 评论 -
Hadoop运行mapreduce任务过程中报错:Error: Java heap space问题解决
问题:Hadoop集群在运行mapreduce任务的时候报错:Error: Java heap space问题分析:这个错误,首先一看到,便猜测是jvm的堆内存不够,于是便查询了hadoop运行mapreduce的时候jvm的默认值(我之前在搭建集群的时候是没有设置的),于是知道了在 mapred-site.xml中有一个mapred.child.java.opts的配置,用于jvm运行时he原创 2015-11-30 17:40:55 · 5632 阅读 · 0 评论 -
Flume案例
一、Flume的案例 1.案例1:Avro Avro可以发送一个给定的文件给Flume,Avro 源使用AVRO RPC机制。 1)创建agent的配置文件avro.confa1.sources = r1a1.sinks = k1a1.channels = c1# Describe/configure the sourcea1.sources.r1.type = avroa1.sour原创 2015-08-17 17:03:00 · 1529 阅读 · 0 评论 -
kafka的安装和配置
一、Kafka的安装和配置1.kafka的下载地址 http://kafka.apache.org/downloads.html 2.下载后,可以通过winscp,复制到centos环境下,然后解压: tar zxvf kafka_2.10-0.8.1.1.tgz 3.进入/kafka_2.10-0.8.1.1/config/目录下,对server.properties进行配置:vi ser原创 2015-08-17 20:06:52 · 3849 阅读 · 0 评论 -
storm集群的安装和部署
Storm 是一个开源的、大数据处理系统,与其他系统不同,它旨在用于分布式实时处理且与语言无关。Storm 实现的一些特征决定了它的性能和可靠性的。Storm 使用 ZeroMQ 传送消息,这就消除了中间的排队过程,使得消息能够直接在任务自身之间流动。在消息的背后,是一种用于序列化和反序列化 Storm 的原语类型的自动化且高效的机制。Storm 的一个最有趣的地方是它注重容错和管理。Stor原创 2015-08-18 15:23:00 · 2275 阅读 · 0 评论 -
zookeeper集群的安装和配置
Zookeeper是一个高性能,分布式的,开源分布式应用协调服务。它提供了简单原始的功能,分布式应用可以基于它实现更高级的服务,比如分布式同步(Distributed Synchronization)、命名服务(Naming Service)、集群维护(Group Maintenance)、名空间(Name Space)等。它被设计为易于编程,使用文件系统目录树作为数据模型。Zookeep原创 2015-08-18 10:05:01 · 12531 阅读 · 1 评论 -
Hadoop启动namenode失败,端口号冲突问题解决
部署完Hadoop集群后,启动hadoop集群,有可能会遇到端口号冲突的问题ERROR org.apache.hadoop.hdfs.server.namenode.NameNode: Failed to start namenode.java.net.BindException: Problem binding to [logsrv03:9000] java.net.BindExcepti原创 2015-11-13 14:39:26 · 5228 阅读 · 0 评论 -
hadoop-2.7.1启动Unable to load native-hadoop library for your platform问题解决
在安装好hadoop集群后,启动集群的时候,首先我们会执行bin/hdfs namenode -format对hdfs就行格式化,然后执行sbin/start-dfs.sh这个时候会报warningWARN org.apache.hadoop.util.NativeCodeLoader: Unable to load native-hadoop library for your原创 2015-11-13 13:54:27 · 4060 阅读 · 0 评论 -
hadoop HDFS常用文件操作命令
命令基本格式:hadoop fs -cmd 1.lshadoop fs -ls /列出hdfs文件系统根目录下的目录和文件hadoop fs -ls -R /列出hdfs文件系统所有的目录和文件2.puthadoop fs -put local file > hdfs file >hdfs file的父目录一定要存在,否则命转载 2015-11-18 10:43:17 · 1036 阅读 · 0 评论 -
Kafka监控——获取Partition的LogSize、Lag、BrokerId
一、引入kafka Pom依赖 org.apache.kafka kafka_2.10 0.8.1.1 二、LogSize、BrokerId获取实现类package com.xgd.log.common;import java.util.ArrayList;import java.util.HashMap;import java.util.原创 2016-06-23 10:45:53 · 19129 阅读 · 4 评论