大数据
文章平均质量分 94
洛城小红魔
小菜鸟。学习
展开
-
史上最详细的Hadoop环境搭建
前言Hadoop在大数据技术体系中的地位至关重要,Hadoop是大数据技术的基础,对Hadoop基础知识的掌握的扎实程度,会决定在大数据技术道路上走多远。这是一篇入门文章,Hadoop的学习方法很多,网上也有很多学习路线图。本文的思路是:以安装部署Apache Hadoop2.x版本为主线,来介绍Hadoop2.x的架构组成、各模块协同工作原理、技术细节。安装不是目的,通过安装认识转载 2017-12-27 19:08:53 · 3070 阅读 · 4 评论 -
DB、ETL、DW、OLAP、DM、BI关系
DB、ETL、DW、OLAP、DM、BI关系结构图在此大概用口水话简单叙述一下他们几个概念:(1)DB/Database/数据库——这里一般指的就是OLTP数据库,在线事物数据库,用来支持生产的,比如超市的买卖系统。DB保留的是数据信息的最新状态,只有一个状态!比如,每天早上起床洗脸照镜子,看到的就是当时的状态,至于之前的每天的状态,不会出现的你的眼前,这个眼前就是db。(2)DW/Data Wa...转载 2018-02-09 10:00:06 · 1387 阅读 · 0 评论 -
HBase环境搭建(单机)
引言在上一篇中搭建了Hadoop的单机环境,这一篇则搭建HBase的单机环境环境准备1,服务器选择阿里云服务器:入门型(按量付费)操作系统:linux CentOS 6.8Cpu:1核内存:1G硬盘:40G2,配置选择JDK:1.8 (jdk-8u144-linux-x64.tar.gz)Hadoop:2.8.2 (hadoop-2.8.2.tar.gz)HBase:1.6.2 (hbase-1....原创 2018-01-20 10:40:42 · 464 阅读 · 1 评论 -
hive中控制map和reduce数量的简单实现方法
0、先说结论: 由于mapreduce中没有办法直接控制map数量,所以只能曲线救国,通过设置每个map中处理的数据量进行设置;reduce是可以直接设置的。 控制map和reduce的参数set mapred.max.split.size=256000000; -- 决定每个map处理的最大的文件大小,单位为Bset mapred.min.split.size.转载 2018-01-09 09:39:54 · 791 阅读 · 0 评论 -
Storm——可靠性(ACK原理)
转自:http://blog.csdn.net/xeseo/article/details/17754825对于Storm,它有一个很重要的特性:“Guarantee no data loss” ——可靠性很显然,要做到这个特性,必须要track每个data的去向和结果。Storm是如何做到的呢——acker机制。先概括下acker所参与的工作流程:1. Spout原创 2018-02-01 10:12:14 · 390 阅读 · 0 评论 -
storm-1.1.0安装教程---分布式配置
1、安装环境:安装包:apache-storm-1.1.0.tar.gz集群主机IP:192.168.118.1,192.168.118.128,192.168.118.129集群主机名称:hzq,centos71,centos72集群主机用户:都是用hzq用户集群JDK环境:jdk-8u131-linux-x64.tar.gz(具体安装步骤见:《Linux安装JDK步骤》)集群主转载 2018-01-24 17:42:12 · 254 阅读 · 0 评论 -
Sqoop-1.4.6安装部署及详细
之所以选择Sqoop1是因为Sqoop2目前问题太多。无法正常使用,综合比较后选择Sqoop1。Sqoop1安装配置比较简单一、安装部署(1)、下载地址:http://archive.cloudera.com/cdh5/cdh/5/sqoop-1.4.6-cdh5.5.2.tar.gz解压到/opt/cdh5/sqoop(2)、拷贝mysql的jdbc驱动包转载 2018-01-16 19:36:31 · 397 阅读 · 0 评论 -
Zookeeper介绍及安装部署
本节内容:Zookeeper介绍Zookeeper特点Zookeeper应用场景用到了Zookeeper的一些系统Zookeeper集群安装部署 一、Zookeeper介绍是一个针对大型分布式系统的可靠协调系统;提供的功能包括:配置维护、名字服务、分布式同步、组服务等;目标就是封装好复杂易出错的关键职务,将简单易用的接口和性能高效、功能稳定的系统提供给用户;Zookeeper已经成为Hadoop生...原创 2018-01-24 15:39:52 · 209 阅读 · 0 评论 -
Strom目录树和提交任务流程
Storm组件本地目录树 Storm zookeeper目录树 Storm任务提交的过程原创 2018-01-31 14:34:44 · 172 阅读 · 0 评论 -
Hive 安装
安装hive 之前,要保证hadoop安装成功,本教程对应的是hadoop版本为2.6.4,hive 版本为 2.1.1,默认情况下,Hive元数据保存在内嵌的 Derby 数据库中,只能允许一个会话连接,只适合简单的测试。为了支持多用户多会话,则需要一个独立的元数据库,我们使用 MySQL 作为元数据库一、下载Hive下载地址:https://mirrors.tuna.tsing原创 2018-01-06 16:10:28 · 227 阅读 · 0 评论 -
OLTP与OLAP的区别
联机事务处理OLTP(on-line transaction processing) 主要是执行基本日常的事务处理,比如数据库记录的增删查改。比如在银行的一笔交易记录,就是一个典型的事务。 OLTP的特点一般有: 1.实时性要求高。我记得之前上大学的时候,银行异地汇款,要隔天才能到账,而现在是分分钟到账的节奏,说明现在银行的实时处理能力大大增强。 2.数据量不是很大,生产库上的数据量一原创 2018-01-22 09:43:06 · 129 阅读 · 1 评论 -
Storm——Topology部署原理
Topology有两种大类提交部署方式:提交到本地模式,一般用于调试。该模式下由于是起在同一个JVM进程下,所以不要让其负载太高。提交到集群模式。提交到本地模式这个非常的简单。1. 编写代码[java] view plain copypublic class LocalRunningTopology ext原创 2018-01-30 14:41:00 · 331 阅读 · 0 评论