自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

扣脚小生

程序猿

  • 博客(11)
  • 收藏
  • 关注

原创 cloudera环境搭建

一、cloudera背景介绍Cloude Manager概述:CDH是Cloudera公司对整体hadoop集群环境进行监控与管理的企业级大数据管理平台。Cloudera Manager分为:Cloudera Manager Server:对整个集群提供监控与管理操作。Cloudera Manager Server通过部署在不同设备上的Cloudera Manager Agent进...

2018-09-04 13:58:13 17529 3

原创 MapReduce

MapReduce模型MapReduce将复杂的、运行于大规模集群上的并行计算过程高度地抽象到了两个函数:Map和Reduce;编程容易,不需要掌握分布式并行编程细节,也可以很容易把自己的程序运行在分布式系统上,完成海量数据的计算;MapReduce采用“分而治之”策略,一个存储在分布式文件系统中的大规模数据集,会被切分成许多独立的分片(split),这些分片可以被多个Map任务并行处...

2018-08-26 11:56:11 1032 1

原创 云数据库

目录云数据库概述 云数据库UMP系统架构MnesiaRabbitMQZooKeeperLVSController服务器 Web控制台Proxy服务器Agent服务器日志分析服务器信息统计服务器愚公系统UMP系统功能容灾读写分离分库分表资源管理资源调度资源隔离数据安全云数据库概述云数据库是部署和虚拟化在云计算...

2018-08-19 15:01:30 1526 1

原创 NoSQL数据库

 NoSQL数据库的特点:(1)灵活的可扩展性(2)灵活的数据模型(3)与云计算紧密融合 NoSQL兴起的原因1、关系数据库已经无法满足Web2.0的需求,主要表现在:无法满足海量数据的管理需求、无法满足数据高并发的需求、无法满足高可扩展性和高可用性的需求2、“One size fits all”模式很难适用于截然不同的业务场景,关系模型作为统一的数据模型既被用于数据分析,也被用于在线...

2018-08-11 17:12:05 2998 1

原创 HBase编程实践

HBase的安装与配置下载hbase-1.2.6.1-bin.tar.gz(下载地址:http://archive.apache.org/dist/hbase/,选择stable目录下的hbase-1.2.6.1-bin.tar.gz文件)wget http://archive.apache.org/dist/hbase/stable/hbase-1.2.6.1-bin.tar.gz...

2018-08-11 14:49:53 450

原创 分布式数据库HBase

目录HBase数据模型HBase的实现原理Region的定位HBase运行机制HBase系统架构1. 客户端2. Zookeeper服务器3. Master4. Region服务器Region服务器工作原理Store工作原理HLog工作原理 关系数据库已经流行很多年,并且Hadoop已经有了HDFS和MapReduce,为什么需要HBase?...

2018-08-06 15:33:55 835

原创 HDFS编程实践

HDFS常用命令cd /usr/local/hadoop./sbin/start-dfs.sh #启动hadoop利用Shell命令与HDFS进行交互查看fs支持了哪些命令hadoop@ubuntu:/usr/local/hadoop$ ./bin/hadoop fsUsage: hadoop fs [generic options] [-appendToFile &lt...

2018-08-05 19:17:34 1904

原创 Hadoop安装教程_单机/伪分布式配置_腾讯云/Ubuntu Server 16.04.1 LTS 64位/Hadoop2.9.1

环境腾讯云服务器系统:Ubuntu Server 16.04.1 LTS 64位Hadoop版本:hadoop-2.9.1提示:云服务器下的Ubuntu图形化界面亲测很卡,慎用!所以本教程全程shell配置。 装好了 Ubuntu 系统之后,在安装 Hadoop 前还需要做一些必备工作。创建hadoop用户如果安装 Ubuntu 的时候不是 “hadoop” 用户,...

2018-08-05 17:09:47 483

原创 Hadoop分布式文件系统

分布式文件系统分布式文件系统(Distributed File System)是一种通过网络实现文件在多台主机上进行分布式存储的文件系统,一般采用Client/Server(客户端/服务器)模式。计算机集群的基本架构集群中的计算机节点存放在机架(Pack)上,每个机架可存放8~64个节点,同一机架上的不同节点之间通过网络互连(常用吉比特以太网),多个不同机架采用另一级网络或交换机互联...

2018-08-05 10:12:48 1531

原创 名称节点运行期间EditLog不断变大的问题以及解决方案

问题:在名称节点运行期间,HDFS的所有更新操作都是直接写到EditLog中,时间一长, EditLog文件将会变得很大。虽然这对名称节点运行时候没有什么明显影响,但当名称节点重启的时候,名称节点需要先将FsImage里面的所有内容映像到内存中,然后再一条一条地执行EditLog中的记录,当EditLog文件非常大的时候,会导致名称节点启动操作非常慢,而在这段时间内HDFS系统处于安全模式,一...

2018-08-04 15:10:26 3595

原创 大数据关键技术、及计算模式介绍,以及大数据与云计算、物联网的关系

大数据指数据与大数据技术这二者的综合,而大数据技术,是指伴随着大数据的采集、传输、处理和应用的相关技术,通过一系列非传统的工具来对大量的结构化、半结构化和非结构化数据进行处理,从而获得分析和预测结果的一系列数据处理和分析技术。大数据关键技术的不同层面及其功能数据采集利用ETL工具将分布的、异构数据源中的数据抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机...

2018-08-02 14:33:26 9300

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除