毕设进度
文章平均质量分 72
this_heart_add_add
这个作者很懒,什么都没留下…
展开
-
Windows 编译 hadoop eclipse plugin 1.0.4
Windows编译Hadoop-eclipse-plugin-1.0.4.jar1. 下载apache ant压缩包,解压到D盘2. 配置ant环境变量ANT_HOME = D:\apache-ant-1.8.4在path环境变量后追加 %ANT_HOME%\bin3. 下载hadoop-1.0.4.tar.gz,解压到D盘转载 2013-05-13 15:01:58 · 868 阅读 · 0 评论 -
LevelDb
LevelDb之一:初识LevelDb 说起LevelDb也许您不清楚,但是如果作为IT工程师,不知道下面两位大神级别的工程师,那您的领导估计会Hold不住了:Jeff Dean和Sanjay Ghemawat。这两位是Google公司重量级的工程师,为数甚少的Google Fellow之二。Jeff Dean其人:http://rese转载 2013-06-07 10:17:29 · 719 阅读 · 0 评论 -
Hbase 权威指南
Hbase在hdfs上有一个可配置的根目录,默认是"/hbase"。 Root-level files:WAL 的文件:由HLog实例控制,创建在hbase根目录的.logs目录。这个目录为每个HRegionServer创建了一个子目录。在每个子目录下面有HLog的文件。所有的regions共享本台regionserver的HLog文件。有时候会有这样的现象:had转载 2013-06-07 20:50:59 · 1945 阅读 · 0 评论 -
hbase权威指南: store file合并(compaction)
hbase为了防止小文件(被刷到磁盘的menstore)过多,以保证保证查询效率,hbase需要在必要的时候将这些小的store file合并成相对较大的store file,这个过程就称之为compaction。在hbase中,主要存在两种类型的compaction:minor compaction和major compaction。转载 2013-06-07 19:17:53 · 7069 阅读 · 1 评论 -
HBase Split 过程
看了下hbase split的代码 记录一下学习心得 Java代码 private void split(final HRegion parent, final byte [] midKey) throws IOException { final long startTime = System.currentTimeMillis();转载 2013-06-07 20:50:10 · 6554 阅读 · 0 评论 -
Hbase集成到Hadoop的一些注意事项
安装、部署hadoop和hbase的文章网上已经很多了,这里说下自己安装、部署时遇到的 一些问题。1、 hadoop-env.sh的文件里添加:export HADOOP_CLASSPATH=$HBASE_HOME/hbase-0.20.3.jar:$HBASE_HOME/conf:$HBASE_HOME/lib/zookeeper-3.2.2.jar注意红色部分,网上的文档没提到,转载 2013-06-24 21:01:55 · 1643 阅读 · 0 评论 -
大大
http://delxu.blog.51cto.com/975660/283522因为本人用的系统是英文版,截图也都是英文的,所以文中表述常常会中英混杂,只是为自己方便,还请见谅。为方便描述,本文中的资源池(Resource Pool)都简写为RP。VM=虚机,Shares=份额,vCPU=虚机的CPU,Limit=限额或上限,Reservation=保留。资源池(转载 2013-07-04 19:15:01 · 657 阅读 · 0 评论 -
远程调用执行Hadoop Map/Reduce
远程调用执行Hadoop Map/Reduce在Web项目中,由用户下发任务后,后台服务器远程调用JobTracker所在服务器,运行Map/Reduce更符合B/S架构的习惯。由于网上没有相关资料,所以自己实现了一个,现在分享一下。注:基于Hadoop1.1.2版本转发请注明地址:http://sgq0085.iteye.com/admin转载 2013-10-16 11:30:19 · 7559 阅读 · 1 评论 -
MapReduce
摘要MapReduce是一个编程模式,它是与处理/产生海量数据集的实现相关。用户指定一个map函数,通过这个map函数处理key/value(键/值)对,并且产生一系列的中间key/value对,并且使用reduce函数来合并所有的具有相同key值的中间键值对中的值部分。现实生活中的很多任务的实现都是基于这个模式的,正如本文稍后会讲述的那样。使用这样的函数形式实现的程序可以自动分布转载 2013-10-16 11:35:55 · 3889 阅读 · 1 评论 -
windows下使用Eclipse运行MapReduce程序出错: Failed to set...
windows下使用Eclipse运行MapReduce程序出错: Failed to set...在windows下用Eclipse运行MapReduce程序会报错:12/04/24 15:32:44 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platfo转载 2013-10-21 15:31:49 · 2700 阅读 · 1 评论 -
hadoop作业执行流程及代码简略解读
hadoop作业执行流程及代码简略解读本文:参考了网上的博文。出处也不知是哪里,不好意思。最近整理磁盘文档发现的好资料所以整理补充了一下供大家学习参考一下吧。1.主要组成部分: Hadoop包括hdfs与mapreduce两部分,hdfs则为底层的分布式存储系统、mapreduce则为用于处理存储在hdfs中的数据的编程模型。 mapreduce作业提交执行主要转载 2013-10-22 16:00:09 · 4285 阅读 · 0 评论 -
hbase介绍
一、简介 history started by chad walters and jim 2006.11 G release paper on BigTable 2007.2 inital HBase prototype created as Hadoop contrib 2007.10 First useable H转载 2013-06-07 09:35:32 · 548 阅读 · 0 评论 -
详解HBase Compaction
HBase 中有一种数据行为叫Compaction,从字面的意思就是数据文件合并,本文对Compaction的目的,控制方法,具体实施过程等几个方面对HBase 的 Compaction 行为进行了介绍。1. Compaction是什么合并多个HFile生成一个HFileCompaction有两种:Minor Compaction(部分文件合并)Major Co转载 2013-06-07 09:32:47 · 809 阅读 · 0 评论 -
Hadoop学习笔记之在Eclipse中远程调试Hadoop
转载地址:http://itindex.net/detail/37273-hadoop-%E5%AD%A6%E4%B9%A0-%E7%AC%94%E8%AE%B0插件话说Hadoop 1.0.2/src/contrib/eclipse-plugin只有插件的源代码,这里给出一个我打包好的对应的Eclipse插件: 下载地址下载后扔到eclipse/dropins目录下即可,当然ec转载 2013-05-13 16:09:22 · 671 阅读 · 0 评论 -
HADOOP的本地库(NATIVE LIBRARIES)介绍
HADOOP的本地库(NATIVE LIBRARIES)介绍Hadoop是使用Java语言开发的,但是有一些需求和操作并不适合使用java,所以就引入了本地库(Native Libraries)的概念,通过本地库,Hadoop可以更加高效地执行某一些操作。目前在Hadoop中,本地库应用在文件的压缩上面:zlibgzip在使用这两种压缩方式的时候,Hadoop默转载 2013-05-13 16:26:50 · 1474 阅读 · 0 评论 -
Eclipse中启动Tomcat无任何反应
推动了软件业不断发展的可以说有3个方面的东西,过程,方法,技术。方法附会到哲学上应该就是方法论了,做很多事情都是需要方法的,比如写一篇案例,随心随意写也可以写出来,但是别人能否理解,如何检测自己描述清晰都是没有参考的。如果有个模板的,这样按照模板写,把模板填充了,自己的意思也表达清楚了,别人应该也可以理解了,因为模板就是成功经验的总结。这个案例按照我自己找的一个模板写。 现象:eclips转载 2013-05-13 16:49:58 · 6080 阅读 · 1 评论 -
HDFS 在Web程序的相册功能开发中的应用
HDFS 在Web程序的相册功能开发中的应用1、背景: 互联网的应用每时每刻都在产生数据,这些数据长期的积累了长期,使得这些数据文件总量非常庞大,存储这些数据需要投入巨大的硬件资源,但是如果能在已有空闲磁盘集群下可以利用起来,可以不再需要大规模采集服务器存储数据或购买容量庞大的磁盘,减 少了硬件成本。在这里就可以使用到分布式存储这种方案来解决这个问题。转载 2013-05-14 15:26:34 · 1154 阅读 · 1 评论 -
Hadoop API 使用介绍
转:Hadoop API 使用介绍http://f.dataguru.cn/forum.php?mod=viewthread&tid=81346&fromuid=39290Hadoop API被分成(divide into)如下几种主要的包(package)org.apache.hadoop.conf 定义了系统参数的配置文件处理API。org.apache.hadoo转载 2013-05-14 15:30:17 · 499 阅读 · 0 评论 -
使用 Apache Hadoop 和 Dojo 降低商业智能成本,
第 1 部分: 使用 Apache Hadoop 挖掘现有数据供给一个基于 web 的报表应用程序简介: 理解您的业务总是很重要。您的公司能够像您希望的那样敏捷,但如果您不知道该采取什么正确步骤,那么您就像是 “在闭着眼睛开车”。商业智能解决方案可能成本高昂,并且它们通常需要您改进您的数据以适应它们的系统。但是,开源技术使得创建您自己的商业智能报表比以前任何时候都更容易。本文是转载 2013-05-14 15:52:50 · 568 阅读 · 0 评论 -
Hadoop-0.12.2源代码:Configuration类
Hadoop-0.12.2源代码:Configuration类Configuration类位于org.apache.hadoop.conf包中,是Hadoop文件系统的配置类,用来根据配置文件中指定的配置项来创建一个配置实例。从Configuration类的源代码可以看到,定义了如下6个私有成员变量:private boolean quietmode = tru转载 2013-06-09 10:33:28 · 577 阅读 · 0 评论 -
hadoop (1.0.4) Path 详解
Path 对路径进行解析,将参数转换为标准的URI格式,对Path的参数作判断,标准化,字符化等操作。为了便于理解Path,各位可以先参看URI的详解,链接http://www.cnblogs.com/springside5/archive/2012/05/06/2486245.htmlimport java.net.*;import java.io.*;im转载 2013-06-06 15:30:43 · 7141 阅读 · 0 评论 -
实时系统HBase读写优化--大量写入无障碍
在使用hbase过程中发现在写入hbase的数据量很大时,经常发生写不进去的情况。而我们基于hbase的应用是对实时性要求很高的,一旦hbase不能读写则会大大影响系统的使用。下面将记录hbase写优化的过程。1.禁止Major Compaction在hbase进行Major Compaction时,该region将合并所有的storefile,因此整个region都不可读,所有对转载 2013-06-07 10:40:20 · 1368 阅读 · 0 评论 -
谷歌技术"三宝"之BigTable
谷歌技术"三宝"之BigTable2006年的OSDI有 两篇google的论文,分别是BigTable和Chubby。Chubby是一个分布式锁服务,基于Paxos算法;BigTable是一个用于管理结构化数据的分布式存储系统,构建在GFS、Chubby、SSTable等google技术之上。相当多的google应用使用了BigTable,比如Google Ear转载 2013-06-07 10:33:26 · 798 阅读 · 0 评论 -
hadoop源码分析(MapReduce)
原文地址:http://wwangcg.iteye.com/category/171858【good 也有其他方面的内容】hadoop 源码分析(一) jobClient 提交到JobTracker博客分类: hadoophadoopjobclientjobTracker Hadoop 用了2年多了.从最初一起创业的11人20台服务转载 2013-10-22 15:40:42 · 7418 阅读 · 1 评论 -
HBase的Compact和Split源码分析与应用--基于0.94.5
HBase的Compact和Split源码分析与应用--基于0.94.5经过对比,0.94。5以后版本主要过程基本类似(有些新功能和细节增加) 一、 Compact2.1. Compact主要来源来自四个方面:1、Memstoreflush时;2、HRegionServer定期做Compaction Checker时;3、HBaseAdm转载 2013-10-29 12:52:19 · 4555 阅读 · 0 评论 -
京东+Hbase
随着大数据处理时代的到来,NoSQL风生水起。京东作为国内最大的综合网络零售商,随着业务数据量爆发式增长,传统的关系数据库在海量数据面前开始显得捉襟见肘,于是京东云平台在Hadoop生态集群经验积累的基础上,引入了HBase作为海量数据存储的基础设施。虽然引入时间不长,但京东数十个业务系统已经使用了HBase,包括实时在线业务、离线批量计算业务、批量导入兼在线访问等业务类型。为了提高资源利用率,多转载 2013-10-29 13:02:02 · 1332 阅读 · 0 评论 -
eclipse写MAPREDUCE程序对HBase表进行操作之 IndexBuilder(对已有表建索引)
eclipse写MAPREDUCE程序对HBase表进行操作之 IndexBuilder(对已有表建索引)开源 hbase的example/mapreduce里有个类IndexBuilder是用来对已有表建索引的。其代码有一点点需要修改[java] view plaincopyconf.set(TableInputFormat.SCA转载 2013-11-27 18:14:56 · 2710 阅读 · 0 评论 -
分拆TableSplit 让多个mapper同时读取
分拆TableSplit 让多个mapper同时读取默认情况下,一个region是一个tableSplit,对应一个mapper进行读取,但单mapper读取速度较慢,因此想着把默认一个table split分拆成多个split,这样hadoop就能通过多个mapper读取。 由于HBase不能像hadoop一样通过以下参数调整split大小,而实现多个mapper转载 2013-11-27 19:43:11 · 4244 阅读 · 0 评论 -
FFT(快速傅立叶算法 for java)
public class FFT { public static final int FFT_N_LOG = 10; // FFT_N_LOG public static final int FFT_N = 1 private static final float MINY = (float) ((FFT_N private float[] re转载 2013-12-06 13:51:46 · 2728 阅读 · 0 评论 -
hbase MapReduce程序样例入门
hbase MapReduce程序样例入门1、先看一个标准的hbase作为数据读取源和输出源的样例:View Code JAVA12345678Configuration conf = HBaseConfiguratio转载 2013-11-27 19:13:31 · 187838 阅读 · 0 评论 -
Hadoop命令大全
Hadoop命令大全1、列出所有Hadoop Shell支持的命令 $ bin/hadoop fs -help2、显示关于某个命令的详细信息 $ bin/hadoop fs -help command-name3、用户可使用以下命令在指定路径下查看历史日志汇总 $ bin/hadoop job -history output-dir这条命令会显转载 2013-12-13 12:42:28 · 924 阅读 · 0 评论 -
HBase中的拷贝表功能
在使用HBase时,建立表的记录数目很多,想对表进行split操作,但又想以一个大的region来进行比较。所以想到拷贝表。找找命令,HBase有拷贝表的命令:CopyTableCopyTable is a utility that can copy part or of all of a table, either to the same clus原创 2013-12-15 20:06:47 · 11785 阅读 · 0 评论 -
文本数据导入HBASE库找不到类com/google/common/collect/Multimap
文本数据导入HBASE库找不到类com/google/common/collect/Multimap 打算将文本文件导入HBASE库,在运行命令的时候找不到类com/google/common/collect/Multima[hadoop@hadoop1 lib]$ hadoop jar /home/hadoop/hbase-0.94.6/hbase-0.94转载 2013-12-15 21:00:14 · 14801 阅读 · 1 评论 -
Ubuntu中启用关闭Network-manager网络设置问题!
Ubuntu中启用关闭Network-manager网络设置问题!【Server版本】在UbuntuServer版本中,因为只存有命令行模式,所以要想进行网络参数设置,只能通过修改/etc/network/interfaces。具体设置方法如下:(1) UbuntuServer 修改 IP地址打开/etc/network/interfacessudo转载 2013-12-26 15:49:27 · 97196 阅读 · 3 评论 -
HBase中数据的多版本特性潜在的意外
HBase做为KeyValue结构存储,在存储上是依照RowKey的字典序进行排序,对于很多应用而言这可能远远不够,好在HBase的数据可以存储多个版本,并且版本可以排序,其理论上最大的版本数目Integer.MAX_VALUE,这在一定程度上简化应用端的设计 举个例子,假设现在有一个应用,对用户的每次登录信息(如:时间+IP)进行,并要求可以快速获取指定用户的最近登录信息,如果选用HBa转载 2014-03-15 20:07:28 · 1601 阅读 · 0 评论 -
HBase
hbase 介绍一、简介historystarted by chad walters and jim2006.11 G release paper on BigTable2007.2 inital HBase prototype created as Hadoop contrib2007.10 First useable Hbase2008.1 Hadoop becom转载 2014-03-15 13:47:18 · 2272 阅读 · 2 评论 -
使用MapReduce处理Hbase数据
使用MapReduce处理Hbase数据 今天终于把MR处理Hbase的数据的程序搞定了,自己走了好多的弯路,程序写完之后,在本机的伪分布式的hadoop上跑是没问题的,可是把程序上传的集群上就出错了,最后发现是zookeeper没配对,在编译的时候没有把conf添加的CLASSPATH,这才导致出错的。 下面是MR测试的程序: 1 import java.io.I转载 2013-11-27 14:02:25 · 2210 阅读 · 0 评论 -
用mapreduce来操作hbase的两点优化
用mapreduce来操作hbase的两点优化用MR来对hbase的表数据进行分布式计算。有两点配置可以优化操作,提升性能。它们分别是:(1)scan.setCacheBlocks(false); 然后调用下面这句来初始化map任务 TableMapReduceUtil.initTableMapperJob这个配置项是干什么的呢? 本次mr转载 2013-11-27 13:57:41 · 821 阅读 · 0 评论 -
利用开源软件架设中小型私有云存储系统【简要选型】
利用开源软件架设中小型私有云存储系统【简要选型】我们和业内一些知名公司实践验证的方案:架构:HDFS + HBASE 比较容易做到P级。对于提供云存储服务的单位,访问上可以考虑前端再做热点缓存(SSD+服务化)。软件选型:Cloudera CDH4技术要求:高另外可以考虑:GlusterFS + Cassandra:技术要求高。灵活集转载 2013-10-29 13:09:32 · 1112 阅读 · 0 评论 -
从Hadoop框架与MapReduce模式中谈海量数据处理(含淘宝技术架构
从Hadoop框架与MapReduce模式中谈海量数据处理(含淘宝技术架构) 从hadoop框架与MapReduce模式中谈海量数据处理前言几周前,当我最初听到,以致后来初次接触Hadoop与MapReduce这两个东西,我便稍显兴奋,觉得它们很是神秘,而神秘的东西常能勾起我的兴趣, 在看过介绍它们的文章或论文之后,觉得Hadoop是一项富有趣味和挑战性转载 2013-10-29 20:41:44 · 1634 阅读 · 0 评论