- 博客(18)
- 资源 (17)
- 收藏
- 关注
原创 zookeeper介绍
zookeeper介绍★ 什么是zookeeperzookeeper 是 Google 的 Chubby一个开源的实现,是Hadoop 的分布式协调服务。zookeeper包含有一个简单的原语集,分布式应用程序可以基于它实现同步服务,配置维护和命名服务等。 ★ zookeeper的角色大部分的分布式应用都需要一个主控、协调器或控制器来管理物理分布的子进程。zooke
2014-12-14 13:27:20 595
原创 SQOOP入门
SQOOP入门★ SQOOP入门Sqoop提供的命令可以把RDMS管理的数据库中的数据导入到HDFS中或者Hive仓库中。 也提供了命令可以把HDFS中的数据导入到Mysql等REMS数据库中。 ★ SQOOP安装Sqoop依赖于Hadoop平台的Hdfs存储和MapReduce计算。所以,安装Sqoop之前,需要安装好Hadoop。1:解压、设置环境变量略。
2014-12-14 13:25:37 455
原创 PIG入门
PIG入门★ PIG简介1:Pig是基于Hadoop的一个数据处理框架。 MapReduce是使用Java进行开发,Pig有一套自己的数据处理语言,Pig的数据处理过程要转化为MR来运行。2:Pig的数据处理语言是数据流方式的。何为数据流?3:Pig的基本数据类型:int、long、float、double、chararry、bytearray Pig的复杂数据类型:
2014-12-14 13:25:01 959
原创 MapReduce体系结构
MapReduce体系结构★ MapReduce的原理MapReduce是一种分布式的计算模型,用于解决大数据的计算问题。MapReduce由两阶段组成,即Map阶段和Reduce阶段,用户只需要实现map()与reduce()两个函数。 ★ MapReduce执行过程包括两大任务,如下Map任务和Reduce任务。▲ Map任务步骤:M1.读取输入文件的内容
2014-12-14 13:24:21 2161
原创 Hive体系介绍
Hive体系介绍★ Hive简介Hive是架构在Hadoop上的数据仓库架构。它提供了一系列的工具,可以用这些工具来进行ETL,即数据的提取转化加载。这是一种可以存储、查询和分析存储在Hadoop中HDFS中的大规模数据的机制。Hive定义了简单的类SQL语言,称为QL,也被称为HQL.Hive的工作原理就是将SQL语句默诵成MR Job然后在Hadoop上运行。Hive的表就
2014-12-14 13:23:30 555
原创 HBASE介绍
HBASE介绍★ HBASE基础Hbase中的每一张表,都是所谓的BigTable。RowKey和ColumnKey是二进制值数组。byte[]Timestamp是一个64位整数 什么可以作为RowKey?字符串、整数、二进制串甚至串行化的结构都可以作为行键。 Hbase中的列必须用列族ColumnFamily来定义。任意一列的表示方式是:==》列族:标签
2014-12-14 13:22:36 798
原创 HDFS体系结构
HDFS体系结构★ 分布式文件系统一种可以管理分布在不同机器上的文件的操作系统。因为,单一的一台机器上的存储已经不能满足需要。不同主机上的文件可以通过网络进行分享。也叫网络操作系统,即NFS。通过网络访问的文件,对用户和程序来说,如同本地一样。其中HDFS就是其中一种分布式操作系统。适合一次写入,多次读写的情况。★ HDFS 常用shell操作在Hadoop中通过shell命令访问
2014-12-14 13:22:35 976
原创 Hadoop集群
Hadoop集群★ Hadoop集群搭建过程集群环境:集群环境是指局域网中的机器,多台机器为了完成同一件事情而协作工作的一种工作模式。每台机器被称为一个节点。 把Hadoop进程安装到多台机器上,实现Hadoop的分布式安装。 分布式以虚拟机vmware的复制来克隆多台机器。分布式集群中,对NameNode和SecondaryNameNode的要求比较高,对内存要求比较
2014-12-14 13:20:31 526
原创 Flume入门
Flume入门★ Flume入门Flume是一个分布式的日志收集系统。这里的日志可以是文本文件也可能是流式的文件。Flume的Agent是一个Java进程,运行在代理端。代理端即日志收集节点。Agent包含:Source ChannelSinkSource专用于收集日志,可以处理各种格式的日志数据。支持的文件格式:略Source收集到的数据,临时存储到Channel中。
2014-12-14 13:20:24 591
原创 Hadoop体系结构
Hadoop体系结构★ Hadoop版本Apache官方版本ClouderaYahoo内部版本★ 两大核心HDFS 和 MapReduceHDFS是Hadoop File System Hadoop文件系统 它是一个分布式的文件系统MapReduce 并行的计算框架 数据来源于HDFS★ HDFS的架构它是一个主从结构的主结点:NameNo
2014-12-14 13:18:46 783
原创 Eclipse、MyEclipse常用快捷键
快捷键的配置,常用快捷键:内容提示(Content Assist):Alt + / 快速修复(Quick Fix):Ctrl + 1导包:ctrl + shift + O格式化代码块:ctrl + shift + F 添加(除去)块注释 Ctrl+Shift+/ (Ctrl+Shift+\)添加(除去)单行注释 Ctrl+/ 移动代码:选中行 alt+上
2014-08-07 23:13:18 464
转载 二分查找算法-递归-非递归实现
package sorttest;/***名称:BinarySearch*功能:实现了折半查找(二分查找)的递归和非递归算法.*说明:* 1、要求所查找的数组已有序,并且其中元素已实现Comparable接口,如Integer、String等.* 2、非递归查找使用search();,递归查找使用searchRecursively();**本程序仅供编程学习参考*
2014-08-07 14:28:05 582 1
原创 分页算法(Java)
分页的实现可分为两大类一、数据在Java代码中进行分页,然后取得当前页数据;二、在数据库中直接取得当前页数据,不同的数据库有不同的实现。计算总页数的方法是:总页数=(数据总行数+每页数据行数-1)/每页数据行数。举例:如果数据库中有10条数据,每页要显示的行数是3.那么总页数是:(10+3-1)/3 = 4 前三页3条数据,第4页1条数据。
2014-02-15 21:55:08 2589 1
GitHub Desktop 最新版 2015-08-12 更新
2015-08-13
Dash for mac 2.2.0 强大的API文档和代码管理工具 只要3分
2015-02-03
SimPholders for Mac 1.5.dmg
2015-01-24
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人