wealon-CSDN博客

原创 zookeeper介绍

zookeeper介绍★ 什么是zookeeperzookeeper 是 Google 的 Chubby一个开源的实现，是Hadoop 的分布式协调服务。zookeeper包含有一个简单的原语集，分布式应用程序可以基于它实现同步服务，配置维护和命名服务等。 ★ zookeeper的角色大部分的分布式应用都需要一个主控、协调器或控制器来管理物理分布的子进程。zooke

2014-12-14 13:27:20 595

原创 SQOOP入门

SQOOP入门★ SQOOP入门Sqoop提供的命令可以把RDMS管理的数据库中的数据导入到HDFS中或者Hive仓库中。也提供了命令可以把HDFS中的数据导入到Mysql等REMS数据库中。 ★ SQOOP安装Sqoop依赖于Hadoop平台的Hdfs存储和MapReduce计算。所以，安装Sqoop之前，需要安装好Hadoop。1：解压、设置环境变量略。

2014-12-14 13:25:37 455

原创 PIG入门

PIG入门★ PIG简介1：Pig是基于Hadoop的一个数据处理框架。 MapReduce是使用Java进行开发，Pig有一套自己的数据处理语言，Pig的数据处理过程要转化为MR来运行。2：Pig的数据处理语言是数据流方式的。何为数据流？3：Pig的基本数据类型：int、long、float、double、chararry、bytearray Pig的复杂数据类型：

2014-12-14 13:25:01 959

原创 MapReduce体系结构

MapReduce体系结构★ MapReduce的原理MapReduce是一种分布式的计算模型，用于解决大数据的计算问题。MapReduce由两阶段组成，即Map阶段和Reduce阶段，用户只需要实现map()与reduce()两个函数。 ★ MapReduce执行过程包括两大任务，如下Map任务和Reduce任务。▲ Map任务步骤：M1.读取输入文件的内容

2014-12-14 13:24:21 2161

原创 Hive体系介绍

Hive体系介绍★ Hive简介Hive是架构在Hadoop上的数据仓库架构。它提供了一系列的工具，可以用这些工具来进行ETL，即数据的提取转化加载。这是一种可以存储、查询和分析存储在Hadoop中HDFS中的大规模数据的机制。Hive定义了简单的类SQL语言，称为QL，也被称为HQL.Hive的工作原理就是将SQL语句默诵成MR Job然后在Hadoop上运行。Hive的表就

2014-12-14 13:23:30 555

原创 HBASE介绍

HBASE介绍★ HBASE基础Hbase中的每一张表，都是所谓的BigTable。RowKey和ColumnKey是二进制值数组。byte[]Timestamp是一个64位整数什么可以作为RowKey？字符串、整数、二进制串甚至串行化的结构都可以作为行键。 Hbase中的列必须用列族ColumnFamily来定义。任意一列的表示方式是：==》列族：标签

2014-12-14 13:22:36 798

原创 HDFS体系结构

HDFS体系结构★ 分布式文件系统一种可以管理分布在不同机器上的文件的操作系统。因为，单一的一台机器上的存储已经不能满足需要。不同主机上的文件可以通过网络进行分享。也叫网络操作系统，即NFS。通过网络访问的文件，对用户和程序来说，如同本地一样。其中HDFS就是其中一种分布式操作系统。适合一次写入，多次读写的情况。★ HDFS 常用shell操作在Hadoop中通过shell命令访问

2014-12-14 13:22:35 976

原创 Hadoop集群

Hadoop集群★ Hadoop集群搭建过程集群环境：集群环境是指局域网中的机器，多台机器为了完成同一件事情而协作工作的一种工作模式。每台机器被称为一个节点。把Hadoop进程安装到多台机器上，实现Hadoop的分布式安装。分布式以虚拟机vmware的复制来克隆多台机器。分布式集群中，对NameNode和SecondaryNameNode的要求比较高，对内存要求比较

2014-12-14 13:20:31 526

原创 Flume入门

Flume入门★ Flume入门Flume是一个分布式的日志收集系统。这里的日志可以是文本文件也可能是流式的文件。Flume的Agent是一个Java进程，运行在代理端。代理端即日志收集节点。Agent包含：Source ChannelSinkSource专用于收集日志，可以处理各种格式的日志数据。支持的文件格式：略Source收集到的数据，临时存储到Channel中。

2014-12-14 13:20:24 591

原创 Hadoop体系结构

Hadoop体系结构★ Hadoop版本Apache官方版本ClouderaYahoo内部版本★ 两大核心HDFS 和 MapReduceHDFS是Hadoop File System Hadoop文件系统它是一个分布式的文件系统MapReduce 并行的计算框架数据来源于HDFS★ HDFS的架构它是一个主从结构的主结点：NameNo

2014-12-14 13:18:46 783

原创 C语言

哈哈哈

2014-10-23 15:04:55 401

原创添加图片测试--关于我

如下图所示：这是nf

2014-08-15 18:06:21 474

原创 Spring与Hibernate Struts2等框架的整合

本文介绍Spring与Hibernate Struts2等框架的整合

2014-08-12 23:02:30 478

原创 Hadoop2.2源代码编译

1.安装虚拟机Centos环境略。我r

2014-08-09 18:56:49 473

原创 Eclipse、MyEclipse常用快捷键

快捷键的配置，常用快捷键：内容提示(Content Assist)：Alt + / 快速修复(Quick Fix)：Ctrl + 1导包：ctrl + shift + O格式化代码块：ctrl + shift + F 添加(除去)块注释 Ctrl+Shift+/ (Ctrl+Shift+\)添加(除去)单行注释 Ctrl+/ 移动代码：选中行 alt+上

2014-08-07 23:13:18 464

原创数据库索引

什么是索引？tuuj

2014-08-07 15:29:11 466

转载二分查找算法-递归-非递归实现

package sorttest;/***名称:BinarySearch*功能:实现了折半查找(二分查找)的递归和非递归算法.*说明:* 1、要求所查找的数组已有序,并且其中元素已实现Comparable接口,如Integer、String等.* 2、非递归查找使用search();,递归查找使用searchRecursively();**本程序仅供编程学习参考*

2014-08-07 14:28:05 582 1

原创分页算法（Java）

分页的实现可分为两大类一、数据在Java代码中进行分页，然后取得当前页数据；二、在数据库中直接取得当前页数据，不同的数据库有不同的实现。计算总页数的方法是：总页数=(数据总行数+每页数据行数-1)/每页数据行数。举例：如果数据库中有10条数据，每页要显示的行数是3.那么总页数是：(10+3-1）/3 = 4 前三页3条数据，第4页1条数据。

2014-02-15 21:55:08 2589 1