大数据
文章平均质量分 75
在这个互联网飞速发展的时代,大数据技术真的是不可或缺。因此怀着一种对技术追求的热情,创建了本专栏,希望能在这里能与大家一起交流,一起进步!
Forever_ck
热爱编程,喜欢和朋友交流,享受寻找新技术的乐趣!
展开
-
大数据数仓之Hive入门《一》
一 、Hive 基本概念 1.1 什么是 Hive Hive:由 Facebook 开源用于解决海量结构化日志的数据统计。它是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类 SQL 查询功能。 本质就是:将HQL 转化成 MapReduce 程序 1)Hive 处理的数据存储在 HDFS 2)Hive 分析数据底层的实现是 MapReduce 3)执行程序运...原创 2018-11-29 18:53:43 · 590 阅读 · 0 评论 -
日志收集之 Flume 详细介绍
今天给大家介绍个日志处理的工具。 一、Flume简介 Flume 提供一个分布式的,可靠的,对大数据量的日志进行高效收集、聚集、移动的服务,Flume 只能在 Unix 环境下运行。 Flume 基于流式架构,容错性强,也很灵活简单。 Flume、Kafka 用来实时进行数据收集,Spark、Storm 用来实时处理数据,impala 用来实时查询。 二、Flume中的角色 2....原创 2018-11-30 19:01:34 · 204 阅读 · 0 评论 -
MapReduce中的HelloWorld,安排一下?
相信绝大多数程序员在看到 HelloWorld这个词的时候,总会情不自禁的翘起嘴角吧!虽然早已离开了校园,但每每看到这个词,我总会自然而然地想起曾经和我的那群“狐朋狗友”在大学里肆无忌惮敲代码的日子。。。 似乎有点跑题了(尴尬脸),看了上篇的原理,是不是手痒,想来操作一下了! https://blog.csdn.net/Forever_ck/article/details/84589932 下面我...原创 2018-11-28 19:26:48 · 638 阅读 · 0 评论 -
深入浅出大数据之HBase
一、HBase概述 HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。HBa...原创 2018-12-03 18:00:33 · 344 阅读 · 0 评论