大数据
文章平均质量分 95
cp_Mark
这个作者很懒,什么都没留下…
展开
-
Hadoop背景知识
本文主要涉及到的知识如下:什么是大数据,大数据的核心问题是什么?Hadoop的理论来源什么是大数据,大数据的核心问题是什么在了解大数据的概念之前,我们需要先了解以下几个概念:(1)OLTP:On-Line Transaction Processing(联机事务处理过程),也称为面向交易的处理过程,其基本特征是前台接收的用户数据可以立即传送到计算中心进行处理,并在很短的时间...原创 2018-05-01 21:14:47 · 615 阅读 · 0 评论 -
HUE和ZooKeeper
涉及到的知识点:什么是HUEHUE环境搭建什么是ZooKeeper搭建ZooKeeper环境(单节点、集群)ZooKeeper的功能:数据同步、选举机制、分布式锁什么是HUEHue是一个开源的Apache Hadoop UI系统,通过使用Hue我们可以在浏览器端的Web控制台上与Hadoop集群进行交互来分析处理数据,例如操作HDFS上的数据,运行MapReduce J...原创 2018-05-13 22:25:05 · 977 阅读 · 0 评论 -
数据采集引擎Sqoop和Flume
涉及到的知识点:Sqoop的安装和配置,及常用命令Flume的安装和配置,及使用Sqoop数据采集引擎Sqoop的特点:采集的是关系型数据库中的数据(批量)一般用于离线计算基于JDBC用于在Oracle <-> Sqoop <-> HDFS、HBase、Hive间进行数据交换Sqoop的安装和配置(1)安装 tar -zx...原创 2018-05-13 15:41:48 · 1342 阅读 · 0 评论 -
MapperReduce的使用及高级功能
涉及到的知识:Yarn调度MapReduce的过程MapperReduce排序分区CombinerShuffleYarn调度MapReduce的过程Yarn和MapReduce的关系,就跟我们web项目中和tomcat的关系一样,Yarn是MapReduce运行的容器。下面我们先介绍一下Yarn的一些概念。Yarn也是主从结构:ResourceManager(主...原创 2018-05-06 18:24:58 · 2151 阅读 · 0 评论 -
数据分析引擎Pig
涉及到的知识点:Pig的体系结构安装和配置(本地模式、集群模式)Pig的常用命令Pig的数据模型 – 表结构(重要)使用PigLatin语句分析数据Pig的自定义函数Pig的体系结构Pig是一个用来处理大规模数据集的平台,由Yahoo开发,贡献给Apache。它可以简化MapReduce任务的开发,支持PigLatin语句(类似SQL)。其本质是一个翻译器,将PigL...原创 2018-05-12 19:31:28 · 887 阅读 · 0 评论 -
HDFS高级功能
本篇主要介绍HDFS的高级功能:回收站快照snapshot(一种备份)配额安全模式回收站和我们Window系统上的回收站一样,HDFS也是存在的,不过它默认是关闭的,要开启需要配置。具体的配置如下:vi core-site.xml<property> <name>fs.trash.interval</name>...原创 2018-05-06 00:57:07 · 2419 阅读 · 0 评论 -
数据分析引擎Hive
涉及到的知识点:Hive的体系结构安装和配置Hive的数据模型:内部表、分区表、外部表,桶表、视图Hive的查询(本质就是SQL)Hive的Java API(本质就是JDBC程序)Hive的自定义函数(UDF:user defined function。本质就是一个Java程序)Hive的体系结构Hive其实是构建在Hadoop上的数据仓库平台,为数据仓库管理提供了许...原创 2018-05-12 11:27:52 · 1680 阅读 · 0 评论 -
HDFS体系结构及常见功能
本文主要是介绍HDFS的体系结构和常用操作,涉及到的知识点如下:HDFS的体系结构数据上传数据下载HDFS的体系结构Hadoop的生态圈,包括HDFS、Yarn、HBase都是主从结构。对于HDFS来说,它的主节点是NameNode,从节点是DataNode,还有一个更新最新状态的SecondaryNameNode,下面我们对这几个结点做详细的解释。NameNode:...原创 2018-05-05 16:05:24 · 6737 阅读 · 0 评论 -
Hadoop环境搭建
本文主要是从0开始搭建Hadoop伪分布,涉及到的知识点:VMware创建RetHat Linux虚拟机防火墙免密码登陆本地模式伪分布模式全分布模式准备工作在正式搭建之前,有两件事要做:下载一个VMware12并安装先下一个RetHat Linux的iso文件,可以前往RetHat官网下载开始虚拟机的创建和安装:虚拟机的创建首先在左侧我的计算...原创 2018-05-02 23:18:41 · 359 阅读 · 0 评论 -
HBase环境搭建及使用
涉及到的知识点:HBase的基础知识点Hbase的环境搭建:本地模式、伪分布模式、全分布模式常用功能:命令行操作、Java编程接口(增删改查、过滤器、MapReduce的使用)HAHBase的基础知识点HBase是一种NoSQL数据库,即非关系型数据库。常见的NoSQL数据库有:基于key-value模型:Redis(内存)面向列的模型:HBase、Cassand...原创 2018-05-07 22:56:06 · 819 阅读 · 0 评论