Hadoop
Royi666
听一遍不如看一遍,
看一遍不如做一遍,
做一遍不如讲一遍。
展开
-
Linux下Hadoop+Flume的日志系统搭建
一. 简介Apache Hadoop 是一个由 Apache 基金会所开发的分布式系统基础架构。可以让用户在不了解分布式底层细节的情况下,开发出可靠、可扩展的分布式计算应用。Apache Hadoop 框架,允许用户使用简单的编程模型来实现计算机集群的大型数据集的分布式处理。它的目的是支持从单一服务器到上千台机器的扩展,充分利用了每台机器所提供本地计算和存储,而不是依靠硬件来提供高可用性。...原创 2018-10-26 14:24:55 · 2353 阅读 · 1 评论 -
使用MapReduce对Hadoop下的日志记录进行分析处理
一. 简介MapReduce是一个高性能的批处理分布式计算框架,用于对海量数据进行并行分析和处理。与传统方法相比较,MapReduce更倾向于蛮力去解决问题,通过简单、粗暴、有效的方式去处理海量的数据。通过对数据的输入、拆分与组合(核心),将任务分配到多个节点服务器上,进行分布式计算,这样可以有效地提高数据管理的安全性,同时也能够很好地范围被管理的数据。mapreduce核心就是map+sh...原创 2018-10-26 15:28:24 · 2457 阅读 · 1 评论 -
Hadoop使用笔记
1. Hadoop主要目录:各组件配置文件路径:/usr/local/hadoop-3.0.3/etc/hadoop各组件启动/关闭目录:/usr/local/hadoop-3.0.3/sbin 2. Hadoop3的集群配置文件从slaves变成workers了,被坑了好久啊ToT 3. 能打开8088端口,但是打不开50070等(1)看下端口是否已占用:net...原创 2018-10-26 10:39:22 · 824 阅读 · 0 评论 -
基于大数据的日志服务的搭建
一. 背景及需要实现的功能:1. 按照固定格式采集日志【Hadoop+Flume+log4j进行数据采集】2. 日志数据清洗【定时器+MapReduce+Java/Spark+Scala,从Hadoop读取数据并处理后,存储到Hbase】3. 数据查询接口【以服务的方式提供数据查询接口】4. 日志服务部署【需要部署到linux上】 二. 架构: 三. hadoop和...原创 2019-01-24 13:13:26 · 2006 阅读 · 1 评论