云计算
文章平均质量分 81
judyge
学习好 能力强。
展开
-
HDFS基本命令
HDFS基本命令:hadoop fs -cmdcmd: 具体的操作,基本上与UNIX的命令行相同args:参数HDFS资源URI格式:scheme://authority/pathscheme:协议名,file或hdfsauthority:namenode主机名path:路径示例:hdfs://localhost:9000/u转载 2015-05-13 15:07:06 · 419 阅读 · 0 评论 -
org.apache.hadoop.io
1.下面是主要的类层次图2.Writable和WritableComparable的子类们基本大同小异 3.RawComparator和WritableComparator举例如下,以下以text类型的comparator每个字符从高到低位比较,对于数字类型的字符串也是比较适用的/** A WritableComparator转载 2015-05-13 15:50:49 · 788 阅读 · 0 评论 -
Hadoop源码分析-Context
学编程第一个肯定是hello world,Hadoop也不例外,它的hello world就是Wordcount,单词统计例子 1 package org.apache.hadoop.examples; 2 3 import java.io.IOException; 4 import java.util.StringTokenizer; 5 6 import or转载 2015-05-13 16:17:15 · 1048 阅读 · 0 评论 -
Mac下如何显示隐藏文件/文件夹
Mac下默认也是不显示隐藏文件的,有些时候我们想查看隐藏文件就不是那么方便了,下面我就给大家分享2种查看隐藏文件/文件夹的方法工具/原料Mac操作系统Finder终端通过Finder1在Finder下进入你想要操作的文件夹,按快捷键Command转载 2015-05-07 22:52:02 · 1020 阅读 · 0 评论 -
Mac 使用SSH远程登录
一、打开sshMac Terminal是自带SSH的,可以用whereis来看看:$ whereis ssh但是在现有进程中找不到ssh对应的进程:$ ps aux | grep sshapple 25927 0.0 0.0 2432784 616 s000 R+ 3:14下午 0:00.00 grep ssh直接用ssh原创 2015-05-07 22:44:27 · 1596 阅读 · 0 评论 -
hadoop三个配置文件的参数含义说明
1 获取默认配置配置hadoop,主要是配置core-site.xml,hdfs-site.xml,mapred-site.xml三个配置文件,默认下来,这些配置文件都是空的,所以很难知道这些配置文件有哪些配置可以生效,上网找的配置可能因为各个hadoop版本不同,导致无法生效。浏览更多的配置,有两个方法:1.选择相应版本的hadoop,下载解压后,搜索*.xml,找到转载 2015-05-08 07:03:54 · 404 阅读 · 0 评论 -
Hadoop Eclipse开发环境设置
1、Hadoop开发环境简介1.1 Hadoop集群简介 Java版本:jdk-6u31-linux-i586.bin Linux系统:CentOS6.0 Hadoop版本:hadoop-1.0.0.tar.gz1.2 Windows开发简介 Java版本:jdk-6u31-windows-i586.exe Win系统:Window原创 2015-05-08 11:41:47 · 593 阅读 · 0 评论 -
用Hadoop进行分布式并行编程
程序实例与分析Hadoop 是一个实现了MapReduce 计算模型的开源分布式并行编程框架,借助于Hadoop, 程序员可以轻松地编写分布式并行程序,将其运行于计算机集群上,完成海量数据的计算。在本文中,详细介绍了如何针对一个具体的并行计算任务,基于Hadoop 编写程序,如何使用 IBM MapReduce Tools 在 Eclipse 环境中编译并运行 Hadoop 程序。转载 2015-05-30 11:38:46 · 854 阅读 · 0 评论 -
大数据之hadoop伪集群搭建与MapReduce编程入门
一、理论知识预热一句话介绍hadoop: Hadoop的核心由分布式文件系统HDFS与Map/Reduce计算模型组成。(1)HDFS分布式文件系统HDFS由三个角色构成:1)NameNode2)DataNode:文件存储的基本单元,它将文件块block存储在本地文件系统中3)Client:需要获取分布式文件系统文件的应用程序文件写入:client向Name转载 2015-05-22 08:39:40 · 668 阅读 · 0 评论 -
hadoop之hbase实现web 小实例
package web;import java.io.IOException;import java.io.PrintWriter;import java.util.ArrayList;import java.util.List;import javax.servlet.ServletException;import javax.servlet.http.HttpServlet;转载 2015-11-10 10:36:46 · 423 阅读 · 0 评论 -
HDFS文件系统基本文件命令、编程读写HDFS
HDFS是一种文件系统,存储着Hadoop应用将要处理的数据,类似于普通的Unix和linux文件系统,不同的是他是实现了google的GFS文件系统的思想,是适用于大规模分布式数据处理相关应用的、可扩展的分布式文件系统。它有以下优点:1、在分布式存储中,经常会出现节点失效的情况,HDFS可以持续监视,错误检查,容错处理,自动恢复;2、分布式存储的文件都是非常巨大的,HDFS重新规转载 2015-05-13 15:09:27 · 666 阅读 · 0 评论 -
mapreduce框架详解
开始聊mapreduce,mapreduce是hadoop的计算框架,我学hadoop是从hive开始入手,再到hdfs,当我学习hdfs时候,就感觉到hdfs和mapreduce关系的紧密。这个可能是我做技术研究的思路有关,我开始学习某一套技术总是想着这套技术到底能干什么,只有当我真正理解了这套技术解决了什么问题时候,我后续的学习就能逐步的加快,而学习hdfs时候我就发现,要理解hadoop框架转载 2015-05-13 17:05:22 · 583 阅读 · 0 评论 -
HDFS的JavaAPI操作
package hdfs; import static org.junit.Assert.fail; import java.util.Arrays; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.BlockLocation; import or转载 2015-05-13 15:12:23 · 498 阅读 · 0 评论 -
Linux下Hadoop hdfs Java API使用
0 前言搞了大约2天时间终于把Linux下面Java API的使用给弄清楚了。做个笔记方便以后参考。环境如下所示Hadoop:2.5.1Linux:Ubuntu kylineclipse:luna1 步骤首先是要去下载一个eclipse,这里使用的是Luna。名字比较好听,代表月亮消灭你们...然后发现自带了maven转载 2015-05-13 15:18:30 · 513 阅读 · 0 评论 -
HDFS初探之旅
HDFS(Hadoop Distributed File System)是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,是基于流数据模式访问和处理超大文件的需求而开发的,可以运行于廉价的商用服务器上。它所具有的高容错、高可靠性、高可扩展性、高获得性、高吞吐率等特征为海量数据提供了不怕故障的存储,为超大数据集(Large Data Set)的应用处理带来了很多便利。转载 2015-05-13 15:21:22 · 340 阅读 · 0 评论 -
Hadoop编程调用HDFS
主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop, Crunch, Hue等。从2011年开始,中国进入大数据风转载 2015-05-13 14:53:47 · 411 阅读 · 0 评论 -
用MapReduce实现矩阵乘法
主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop, Crunch, Hue等。从2011年开始,中国进入大数据风转载 2015-05-13 14:54:28 · 504 阅读 · 0 评论 -
hadoop的hdfs文件操作实现上传文件到hdfs
hdfs文件操作操作示例,包括上传文件到HDFS上、从HDFS上下载文件和删除HDFS上的文件,大家参考使用吧复制代码代码如下:import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.*;import java.io.File;import java.io.I转载 2015-05-13 16:02:10 · 3146 阅读 · 0 评论 -
hadoop java操作hdfs
hfds 是一种文件系统,用于存储hadoop将要处理的数据。适用于大规模分布式数据处理,是一个可扩展行的文件分布式系统;优点1、如果出现节点宕机,hdfs,可以持续监视,错误检查,容错处理,文档恢复2、存储文件巨大,hdfs把文件按块处理,规定每块的大小(默认64M)hdfs常用 命令命令格式为: hadoop fs -cmd 1、添加目录转载 2015-05-13 16:03:26 · 520 阅读 · 0 评论 -
hadoop开发必读:认识Context类的作用
问题导读:1.Context能干什么?2.你对Context类了解多少?3.Context在mapreduce中的作用是什么?本文实在能够阅读源码的基础上一个继续,如果你还不能阅读源码,请参考从零教你如何获取hadoop2.4源码并使用eclipse关联hadoop2.4源码http://www.aboutyun.com/thread-8211-1-1.html转载 2015-05-13 16:11:52 · 1245 阅读 · 0 评论 -
Hadoop源码分析-Text
Text是Hadoop中的一个Writable类,定义了Hadoop中的其中的数据类型以及操作。 This class st转载 2015-05-13 16:16:04 · 770 阅读 · 0 评论 -
流式大数据处理的三种框架:Storm,Spark和Samza
许多分布式计算系统都可以实时或接近实时地处理大数据流。本文将对三种Apache框架分别进行简单介绍,然后尝试快速、高度概述其异同。Apache Storm在Storm中,先要设计一个用于实时计算的图状结构,我们称之为拓扑(topology)。这个拓扑将会被提交给集群,由集群中的主控节点(master node)分发代码,将任务分配给工作节点(worker node)执行。一个拓转载 2015-11-10 09:09:56 · 507 阅读 · 0 评论 -
Spark - 大数据Big Data处理框架
Spark是一个针对超大数据集合的低延迟的集群分布式计算系统,比MapReducer快40倍左右。 Spark是hadoop的升级版本,Hadoop作为第一代产品使用HDFS,第二代加入了Cache来保存中间计算结果,并能适时主动推Map/Reduce任务,第三代就是Spark倡导的流Streaming。 Spark兼容Hadoop的APi,能够读写Hadoop的HDFS HB转载 2015-11-10 09:13:41 · 614 阅读 · 0 评论 -
HBase总结(十三)HBase Shell 常用命令及例子
下面我们看看HBase Shell的一些基本操作命令,我列出了几个常用的HBase Shell命令,如下:名称命令表达式创建表create '表名称', '列名称1','列名称2','列名称N'添加记录 put '表名称', '行名称', '列名称:', '值'转载 2015-11-10 10:40:49 · 376 阅读 · 0 评论 -
HBase简单代码实例(Java)
这里我们用一个学生成绩表作为例子,对HBase的基本操作和基本概念进行讲解:下面是学生的成绩表:name grad course:math course:artTom 1 87 97Jerry 2 100 80转载 2015-11-10 11:09:47 · 868 阅读 · 0 评论 -
Hadoop API编程——FileSystem操作
基于前面配置的HDFS伪分布式模式进行实验,完全分布式模式下次来搞。。API编程——FileSystem操作" title="Hadoop API编程——FileSystem操作">创建Java项目,File->New->Java Project,命名为TestHDFS采用单元测试做实验,加入单元测试依赖包,项目导航栏里右键Build Path->AddLibraries-转载 2016-02-25 09:48:32 · 1040 阅读 · 0 评论 -
hadoop: hdfs API示例
利用hdfs的api,可以实现向hdfs的文件、目录读写,利用这一套API可以设计一个简易的山寨版云盘,见下图:为了方便操作,将常用的文件读写操作封装了一个工具类: 1 import org.apache.hadoop.conf.Configuration; 2 import org.apache.hadoop.fs.*; 3 import org.apache.转载 2016-02-25 09:49:16 · 755 阅读 · 0 评论 -
实现对HDFS增删改查CRUD等操作
1 查找列出某个目录下的文件名称,hdfs命令如下所示:hdfs dfs –ls/usr/appjava代码片段: public void list(String srcPath) { Configuration conf = new Configuration(); LOG.inf转载 2016-02-25 09:50:01 · 878 阅读 · 0 评论 -
java实现对HDFS增删改查(CRUD)等操作
实现对HDFS增删改查CRUD等操作1 查找列出某个目录下的文件名称,hdfs命令如下所示:hdfs dfs –ls/usr/appjava代码片段:[plain] view plain copy print?public void list(String srcPath) { Configuration conf =转载 2016-02-25 09:50:47 · 2066 阅读 · 0 评论 -
JSP访问Hadoop 图片存储服务
使用hadoop的hdfs来存放图片文件.以下是整个架构思路: 使用hadoop作为分布式文件系统,hadoop是一个实现了HDFS文件系统和MapReduce的开源项目,我们这里只是使用了它的hdfs.首先从web页面上上传的文件直接调用hadoop接口将图片文件存入hadoop系统中,hadoop可以设定备份数,这样在hadoop系统中某个datanode死掉并不会造成图片不可能转载 2016-02-25 09:52:57 · 806 阅读 · 0 评论 -
Hbase常用操作(增删改查)
运行Eclipse,创建一个新的Java工程“HBaseClient”,右键项目根目录,选择 “Properties”->“Java Build Path”->“Library”->“Add External JARs”,将HBase解压后根目录下的hbase-0.94.1-security.jar、hbase-0.94.1-security-tests.jar和lib子目录下所有jar 包添转载 2016-02-25 09:53:34 · 555 阅读 · 0 评论 -
列式存储与行式存储
以前不是特别明白列式存储和行式存储到底有什么区别,对于突然蹦出来的BigTable、HBase、Cassandra这些NoSQL数据库凭什么比MySQL集群,Oracle在分析存储上的强大?思来可以这样说说。 A. 存储 传统RDBMS以行单位做数据存储(字段为空则赋值为‘NULL'),列式存储数据库以列为单位做数据存储。如下:对于列式存储来转载 2015-11-10 11:38:59 · 6190 阅读 · 2 评论 -
HBase总结(十二)Java API 与HBase交互实例
HBase提供了Java Api的访问接口,掌握这个就跟Java应用使用RDBMS时需要JDBC一样重要[html] view plaincopyimport java.io.IOException; import org.apache.hadoop.conf.Configuration; import org转载 2015-11-10 10:39:57 · 377 阅读 · 0 评论 -
Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解
编者按:HDFS和MapReduce是Hadoop的两大核心,除此之外Hbase、Hive这两个核心工具也随着Hadoop发展变得越来越重要。本文作者张震的博文《Thinking in BigDate(八)大数据Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解》从内部机理详细的分析了HDFS、MapReduce、Hbase、Hive的运行机制,从底层到数据管理转载 2015-11-10 11:07:11 · 2284 阅读 · 0 评论 -
hbase开发环境搭建及运行hbase小实例(HBase 0.98.3新api)
问题导读:1.如何搭建hbase开发环境?2.HTableDescriptor初始化产生了那些变化?3.eclipse如何连接hbase集群?hbase开发环境搭建与hadoop开发环境搭建差不多的。这里是以win7为例。首先我们看一下hadoop的开发环境搭建,参考hadoop开发方式总结及操作指导http://www.aboutyun.com/t转载 2015-11-10 10:52:18 · 908 阅读 · 0 评论 -
hbase权威指南阅读随手笔记二之过滤器
base过滤器的比较操作符:LESS LESS_OR_EQUAL EQUAL =NOT_EQUAL GREATER_OR_EQUAL >=GREATER >NO_OP no operation比较器:BinaryComparator 按字节索引顺序比较指定字节数组,采用Bytes.compareTo(byte[])原创 2015-11-10 19:21:17 · 408 阅读 · 0 评论 -
HBase总结(十一)hbase Java API 介绍及使用示例
几个相关类与HBase数据模型之间的对应关系java类HBase数据模型HBaseAdmin数据库(DataBase)HBaseConfigurationHTable表(Table)HTableDescriptor列族(Column Family)Put列修饰转载 2015-11-10 10:41:32 · 382 阅读 · 0 评论 -
Hadoop MapReduce具体运行过程
package com.abc;import java.io.IOException;import java.util.Iterator;import java.util.StringTokenizer;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.ap转载 2015-11-10 10:45:32 · 405 阅读 · 0 评论 -
HBase-scan API 通过scan读取表中数据
直接贴代码啦[java] view plaincopy/** * * @param zkIp * @param zkPort * @param tablename * @param startRow 传null扫全表 * @param stopRow 已转载 2015-11-10 19:18:30 · 2753 阅读 · 0 评论 -
HBase常用功能和HBase+MapReduce使用总结
1.HBase如果加了列限定,如果该列不存在时返回的结果为empty.2.HBase在scan时指定的StartRow里面不能加-3.HBase在scan时过滤掉指定列不存在的记录4.利用MapReduce导出hbase数据5.利用mapReduce插入数据到HBase1.HBase如果加了列限定,如果该列不存在时返回的结果为empty. 看下原创 2015-11-10 19:23:25 · 1950 阅读 · 0 评论