离线数据分析:kafka+logstash+elasticsearch

原创 2018年04月15日 22:40:26

       elasticsearch也能够存储大量的数据,和hdfs相比有很大的优势:使用hdfs进行数据分析的时候,需要将所有的数据全部都加载出来,然后用一个filter进行过滤,这个时候占用了大量的资源。有些时候,只是从大量的数据中过滤出很少一部分数据,elasticsearch能够通过查询条件,将想要的数据结果返回给你,这样不会占用大量的资源,所以效率会比较高。

通过logstash将kafka中的数据加载到elasticsearch,需要配置logstash的配置文件(kafka-es.conf):

input {
  kafka {
    type => "level-one"
    auto_offset_reset => "smallest"
    codec => plain {
      charset => "UTF-8"
    }
        group_id => "es"
        topic_id => "gsTopic03"
        zk_connect => "mini02:2181,mini03:2181,mini04:2181"
  }
}

filter {
  mutate {
    split => { "message" => "   " }
      add_field => {
        "event_type" => "%{message[3]}"
        "current_map" => "%{message[4]}"
        "current_X" => "%{message[5]}"
        "current_y" => "%{message[6]}"
        "user" => "%{message[7]}"
        "item" => "%{message[8]}"
        "item_id" => "%{message[9]}"
        "current_time" => "%{message[12]}"
     }
         #原来的message不要了
     remove_field => [ "message" ]
  } 
}

output {
    elasticsearch {
      index => "level-one-%{+YYYY.MM.dd}"
          codec => plain {
        charset => "UTF-8"
      }
      hosts => ["mini02:9200", "mini02:9200", "mini02:9200"]
    } 
}
在集群中启动elasticsearch:
./elasticsearch/bin/elasticsearch -d

Python可以这样学(第四季:数据分析与科学计算可视化)

董付国老师系列教材《Python程序设计(第2版)》(ISBN:9787302436515)、《Python可以这样学》(ISBN:9787302456469)配套视频,在教材基础上又增加了大量内容,通过实例讲解numpy、scipy、pandas、statistics、matplotlib等标准库和扩展库用法。
  • 2017年05月23日 14:17

logstash开源日志管理系统-2-logstash配置语言介绍

接着上面一篇,今天说一下logstash配置文件的基本语法,相信看过昨天那篇的人,应该会对logstash的配置有那么点点感性的理解,但是还是不够详细,所以今天要详细的说说,关于语法什么的是比较枯燥的...
  • u010287559
  • u010287559
  • 2014-01-17 16:53:45
  • 2761

Kafka: 大数据处理的利器

当前,友盟消息推送平台的日志服务日均接收二十几亿的请求,预计年底日均请求会突破六十亿。这其中,不得不提到一款大数据处理的利器:Kafka。Kafka 是什么?是小说《变形记》的作者?其实,今天要提...
  • abcd1f2
  • abcd1f2
  • 2015-07-29 14:35:09
  • 1636

kafka是数据处理的未来?

kafka能够通过kafka connect API实现流数据管道的构建,也就是ETL中的E和L,connect API利用了kafka的可扩展性,基于kafka的容错模型进行构建并且提供了一种统一的...
  • yyqq188
  • yyqq188
  • 2018-02-28 11:42:29
  • 33

Flume+Kafka+Storm+Redis实时分析系统基本架构

今天作者要在这里通过一个简单的电商网站订单实时分析系统和大家一起梳理一下大数据环境下的实时分析系统的架构模型。当然这个架构模型只是实时分析技术的一个简单的入门级架构,实际生产环境中的大数据实时分析技术...
  • ymh198816
  • ymh198816
  • 2016-07-24 01:24:08
  • 31984

大数据推荐系统实时架构和离线架构

生活中无论有什么闪失,统统是自己的错,与人无尤,从错处学习改过,精益求精,直至不犯同一错误,从不把过失推诿到他人肩膀上去,免得失去学乖的机会。——《阿修罗》 1、概述        推荐系统是大数据...
  • zhoutaochun
  • zhoutaochun
  • 2017-12-16 16:17:04
  • 1536

点击流离线分析

我的shell脚本代码 : 外部是crontab 定时器 #!/bin/bash# # =======================================================...
  • hr787753
  • hr787753
  • 2017-12-21 19:12:54
  • 100

Kafka设计细节

2. 在 consumer id  节点上注册一个 watch, 当有新的 consumer 加入或者已经存 在的 consumer 离开,都会重新负载该 consumer 组...
  • w13770269691
  • w13770269691
  • 2014-06-12 17:09:28
  • 9898

Kafka到Hdfs的数据Pipeline整理

作者:Syn良子 出处:http://www.cnblogs.com/cssdongl 转载请注明出处 找时间总结整理了下数据从Kafka到Hdfs的一些pipeline,如下 1> Ka...
  • clerk0324
  • clerk0324
  • 2017-03-06 16:14:36
  • 914

kafka技术内幕

第二章 生产者 概述 消息系统通常都会由生产者,消费者,Broker三大部分组成,生产者会将消息写入到Broker,消费者会从Broker中读取出消息,不同的MQ实现的Broker实现会有所不同,...
  • zyj8170
  • zyj8170
  • 2016-07-18 17:42:34
  • 2599
收藏助手
不良信息举报
您举报文章:离线数据分析:kafka+logstash+elasticsearch
举报原因:
原因补充:

(最多只允许输入30个字)