- 博客(642)
- 资源 (30)
- 收藏
- 关注
原创 Hbase总结(五)-hbase常识及habse适合什么场景
当我们对于数据结构字段不够确定或杂乱无章很难按一个概念去进行抽取的数据适合用使用什么数据库?答案是什么,如果我们使用的传统数据库,肯定留有多余的字段,10个不行,20个,但是这个严重影响了质量。并且如果面对大数据库,pt级别的数据,这种浪费更是严重的,那么我们该使用是什么数据库?hbase数个不错的选择,那么我们对于hbase还存在下列问题:1.Column Family代表什么?
2014-10-08 15:38:53 61449 6
转载 Hbase总结(四)- Hbase与传统数据库的区别
在说HBase之前,我想再唠叨几句。做互联网应用的哥们儿应该都清楚,互联网应用这东西,你没办法预测你的系统什么时候会被多少人访问,你面临的用户到底有多少,说不定今天你的用户还少,明天系统用户就变多了,结果您的系统应付不过来了了,不干了,这岂不是咱哥几个的悲哀,说时髦点就叫“杯具啊”。其实说白了,这些就是事先没有认清楚互联网应用什么才是最重要的。从系统架构的角度来说,互联网应用更加看重系统性
2014-10-08 11:09:13 64989 14
原创 Hbase总结(三)-Hbase与Hive的区别与联系
本帖最后由 howtodown 于 2014-5-27 02:48 编辑问题导读:hive与hbase的底层存储是什么?hive是产生的原因是什么?habase是为了弥补hadoop的什么缺陷?共同点:1.hbase与hive都是架构在hadoop之上的。都是用hadoop作为底层存储区别:2.Hive是建立在Hadoop之上为了减少Ma
2014-10-08 09:28:05 10924
原创 hbase总结(二)-hbase安装
本篇介绍两种HBase的安装方式:本地安装方式和伪分布式安装方式。安装的前提条件是已经成功安装了hadoop,而且hadoop的版本要和hbase的版本相匹配。我将要安装的hbase是hbase-0.94.11版本,需要的hadoop是hadoop-1.2.1版本。hbase下载地址:http://mirror.bit.edu.cn/apache/hbase/hbase-0
2014-10-07 22:18:32 10836
原创 Hbase总结(一)-hbase命令
下面我们看看HBase Shell的一些基本操作命令,我列出了几个常用的HBase Shell命令,如下:名称命令表达式创建表create '表名称', '列名称1','列名称2','列名称N'添加记录 put '表名称', '行名称', '列名称:', '值'查看记录
2014-10-07 15:51:04 6713
原创 MapReduce原理分析记录
Shuffle的正常意思是洗牌或弄乱,可能大家更熟悉的是Java API里的Collections.shuffle(List)方法,它会随机地打乱参数list里的元素顺序。如果你不知道MapReduce里Shuffle是什么,那么请看这张图: 这张是官方对Shuffle过程的描述。但我可以肯定的是,单从这张图你基本不可能明白Shuffle的过程,因为它与事实相
2014-09-30 17:26:34 2148 2
转载 WordCount运行原理结合代码详细分析
1、MapReduce理论简介 1.1 MapReduce编程模型 MapReduce采用"分而治之"的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然后通过整合各个节点的中间结果,得到最终结果。简单地说,MapReduce就是"任务的分解与结果的汇总"。 在Hadoop中,用于执行MapReduce任务的机器角色有两个:一个是Job
2014-09-29 16:59:23 7159 2
转载 MapReduce初级经典案例实现
1、数据去重 "数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。下面就进入这个实例的MapReduce程序设计。1.1 实例描述 对数据文件中的数据进行去重。数据文件中的每行都是一个数据。 样例输入如下所示: 1)file1:
2014-09-29 16:53:40 15504
原创 StringTokenizer使用讲解
StringTokenizer是一个用来分隔String的应用类,相当于VB的split函数。1.构造函数public StringTokenizer(String str)public StringTokenizer(String str, String delim)public StringTokenizer(String str, String delim, boolean
2014-09-29 15:36:42 7692
转载 如何查看hadoop程序中自己添加的日志
用hadoop也算有一段时间了,一直没有注意过hadoop运行过程中,产生的数据日志,比如说System打印的日志,或者是log4j,slf4j等记录的日志,存放在哪里,日志信息的重要性,在这里散仙就不用多说了,调试任何程序基本上都得需要分析日志。 hadoop的日志主要是MapReduce程序,运行过程中,产生的一些数据日志,除了系统的日志外,还包含一些我们自己在测试时候,或者线上环境输
2014-09-29 14:17:10 13363
转载 HDFS全面解析涉及基础、命令、API
1、HDFS简介 HDFS(Hadoop Distributed File System)是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,是基于流数据模式访问和处理超大文件的需求而开发的,可以运行于廉价的商用服务器上。它所具有的高容错、高可靠性、高可扩展性、高获得性、高吞吐率等特征为海量数据提供了不怕故障的存储,为超大数据集(Large Data Set)的应用处理
2014-09-24 14:36:42 5055
原创 window下Eclipse配置联调hadoop1.0.3集群
前序:因在widow下用Eclipse联调hadoop2.2.0运行程序没有成功,网上暂时解决办法不多,就折中了下,连接hadoop1.0.3伪分布式一。用到的环境和工具1.Eclipse采用的是indio版本,这个可以用官网下载2.Eclipse hadoop插件:hadoop-eclipse-plugin-1.0.3.jar, 下载地址:http://download.c
2014-09-23 16:35:06 2000 1
转载 window下连接hadoop集群基础超详细版
1、Hadoop开发环境简介1.1 Hadoop集群简介 Java版本:jdk-6u31-linux-i586.bin Linux系统:CentOS6.0 Hadoop版本:hadoop-1.0.0.tar.gz1.2 Windows开发简介 Java版本:jdk-6u31-windows-i586.exe Win系统:Window
2014-09-23 16:26:46 13868 3
原创 Hadoop伪分布式环境下故障及解决
1、hadoop fs -ls不能查询,上图————————————————————————————[shim@hadoop ~]$ hadoop fs -lsls: Cannot access .: No such file or directory.[shim@hadoop ~]$ hadoop fs -ls /Found 2 itemsdrwxr-xr-x
2014-09-22 10:34:13 1078 1
转载 Linux中find常见用法示例
·find path -option [ -print ] [ -exec -ok command ] {} \;find命令的参数;pathname: find命令所查找的目录路径。例如用.来表示当前目录,用/来表示系统根目录。-print: find命令将匹配的文件输出到标准输出。-exec: find命令对匹配的文件执行该参数所给出
2014-09-19 09:57:04 816
原创 Ubuntu 安装 Ganglia并绑定hadoop集群
方法一:(缺点是安装时附加openjdk等大量程序并无法去除,优点是安装简单)$ sudo apt-get install eclipse方法二:(优点是安装内容清爽,缺点是配置麻烦)1、安装JDK,参考 Ubuntu 12.04 下安装 JDK 72、下载 Eclipse从 http://www.eclipse.org/down
2014-09-18 16:53:41 1086
转载 数据分析师规划与等级
前段时间在微博上看到一张某集团的数据分析师职位层级表,由于表格太大,在网页上显得字体太小,很难看清楚,因此我将它简化处理成如下两张表格,分为层级1和层级2: 从表中可以看出,专家级的数据分析在分析方法的要求方面与资深数据分析师是相同的,层级2与层级1的能力差别主要体现在业务分析能力、管理能力和影响力等方面。要从“使命必达”的助理数据分析师,成长为“独挡一面”的数据分
2014-09-18 09:29:57 6990
原创 HDFS文件操作命令及例子
HDFS是一种文件系统,存储着Hadoop应用将要处理的数据,类似于普通的Unix和linux文件系统,不同的是他是实现了google的GFS文件系统的思想,是适用于大规模分布式数据处理相关应用的、可扩展的分布式文件系统。它有以下优点:1、在分布式存储中,经常会出现节点失效的情况,HDFS可以持续监视,错误检查,容错处理,自动恢复;2、分布式存储的文件都是非常巨大的,HDFS重新规
2014-09-17 13:52:46 9401
原创 Hadoop安装遇到的各种异常及解决办法(2)
Failed to set setXIncludeAware(true) for parser遇到此问题一般是jar包冲突的问题。一种情况是我们向java的lib目录添加我们自己的jar包导致hadoop引用jar包的冲突。解决方案就是删除我们自己向系统添加的jar包,重新配置。将自己的jar包或者外部jar放入系统目录会在编译程序时带来方便,但是这不是一种好习惯,我们应该通过修改CL
2014-09-14 21:57:07 1782
原创 Hadoop安装遇到的各种异常及解决办法(1)
异常一:2014-03-13 11:10:23,665 INFO org.apache.Hadoop.ipc.Client: Retrying connect to server: Linux-hadoop-38/10.10.208.38:9000. Already tried 0 time(s); retry policy is RetryUpToMaximumCountWithFixedS...
2014-09-14 14:02:42 49768 2
原创 Linux系统设置Path
方法一:explor 方法 $ export PATH=$PATH; 说明:上述方法的PATH 在终端关闭 后就会消失方法二:修改家目录下的.bashrc(即:~/.bashrc) $ vi ~/.bashrc 在 .bashrc内容中修改PATH, 保存退出 PATH=$PATH;
2014-09-14 13:56:26 937
原创 Hbase创建表插入查询数据案例
package org.robby;import java.io.IOException;import java.text.DateFormat;import java.text.SimpleDateFormat;import java.util.ArrayList;import java.util.Date;import java.util.HashSet;i
2014-09-08 13:14:17 6103
转载 hadoop新框架Yarn详解
Hadoop MapReduceV2(Yarn) 框架简介原 Hadoop MapReduce 框架的问题对于业界的大数据存储及分布式处理系统来说,Hadoop 是耳熟能详的卓越开源分布式文件存储及处理框架,对于 Hadoop 框架的介绍在此不再累述,读者可参考 Hadoop 官方简介。使用和学习过老 Hadoop 框架(0.20.0 及之前版本)的同仁应该很熟悉如下的原 Ma
2014-09-06 23:16:17 7446
转载 hadoop面试题总结2
1 使用Hive或者自定义MR实现如下逻辑product_no lac_id moment start_time user_id county_id staytime city_id13429100031 22554 8 2013-03-11 08:55:19.151754088 571 571
2014-09-05 11:41:41 6827 1
转载 hadoop面试题总结1
1. 下面哪个程序负责 HDFS 数据存储。a)NameNode b)Jobtracker c)Datanode d)secondaryNameNode e)tasktracker答案C datanode2. HDfS 中的 block 默认保存几份?a)3 份 b)2 份c)1 份d)不确定答案A默认3分3. 下列哪个程序通常与 NameNode
2014-09-05 11:29:10 14172 2
原创 OSWorkFlow流程配置文件详解
AbstractWorkflow>>osworkflow中有关工作流流转的所有核心代码都在AbstractWorkflow中,BasicWorkflow就是派生自它,不过这个BasicWorkflow基本上没做什么事情。也许我们还可以从AbstractWorkflow派生自己的Workflow类以加入扩展功能,大概这也算是osworkflow所体现的一种灵活性了,即:允许对工作流流转的执行逻辑
2014-09-04 11:32:00 4646
转载 elipse项目部署到tomcat下
记得开始学习Java Web的时候,首先用的是Eclipse开发,但是有一个问题始终没有弄明白,做好的Web项目是如何发布到Tomcat服务器上的呢?最后得到了一个结论,那就是Eclipse这个软件可能是将项目发布到了一个临时的目录,只有打开Eclipse的时候,启动服务器才能运行Web项目。也正是因为这个原因,一直用的都是MyEclipse开发Java Web项目(十分的方便和顺手)。这几天
2014-09-03 09:42:53 2848
原创 IntelliJ IDEA 设置 编辑器字体大小背景色及快捷键
1,打开File->settings2,在Edit->colors->Fonts下创建新字体保存即可。
2014-08-25 16:37:02 75530 6
原创 Maven学习(三)之eclipse构建Maven项目
1. 安装m2eclipse插件 要用Eclipse构建Maven项目,我们需要先安装meeclipse插件 点击eclipse菜单栏Help->Eclipse Marketplace搜索到插件Maven Integration for Eclipse 并点击安装即可,如下图: 安装成成之后我们在Eclipse菜单栏中点击File->New->Othe
2014-08-20 16:56:37 3772 1
原创 Maven学习(二)之具体讲解
一:编写POM 引用 xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd"> 4.0.0 com.mycompany.app my-app 1.0-SNAPSHOT jar my
2014-08-20 15:54:42 1038
原创 Maven学习(一)之初识
Maven是一个采用纯Java编写的开 源项目管理工具。Maven采用了一种被称之为project object model (POM)概念来管理项目,所有的项目配置信息都被定义在一个叫做POM.xml的文件中,通过该文件,Maven可以管理项目的整个声明周期,包括编 译,构建,测试,发布,报告等等。目前Apache下绝大多数项目都已经采用Maven进行管理。而Maven本身还支持多种插件,可以方
2014-08-20 15:52:56 898
转载 成为产品经理需要会的工具
上期书友会分享了工具,大家发信给我说希望能够写篇博文来分享,PPT还不够他们使。好吧,我再啰嗦一次。我不想和大家具体去讨论一个工具如何如何使用,具体有那些细节功能,我相信,工具只有在亲自使用、体验、完成工作任务才知道是否合适、好用、够用。在这里,我系统的和大家分享一下,到底会用到那些软件、工具、平台,在全局上面有一个了解。工欲善其事必先利其器,好的工具软件可以大大提高工作效率,工具各有优劣,大家按
2014-08-19 16:55:05 1573
转载 高效能的5个项目管理工具
要想获得管理的高效率,经理必须熟知并熟练运用以下几个工具:工具A:招聘面试的STAR原则 招聘面试是经理工作的一项重要内容,每个成功的经理人都必须具备高超的招聘面试技巧,以招聘到合适的人充实到工作团队中,使合适的人在合适的岗位上,创造岗位员工的高绩效。 所谓STAR原则,即Situation(背景)、Task(任务)、Action(行动)和Result(结果)四个英文单词的首字母组合。
2014-08-19 16:39:59 1604
转载 Spark on Yarn 学习(一)
最近看到明风的关于数据挖掘平台下实用Spark和Yarn来做推荐的PPT,感觉很赞,现在基于大数据和快速计算方面技术的发展很快,随着Apache基金会上发布的一个个项目,感觉真的新技术将会不断出现在大家的面前.作为技术发烧友,作为一个看客,来围观下,不过从PPT中列出来的技术来看,未来的发展趋势还是说是有的,而且还是很有发展前景的. 现在Spark和Yarn也就发布2年多的时间,随着社区力
2014-08-12 14:57:18 1455
转载 注册一家互联网公司基本流程
进来说说建立第一家公司需要注意些什么。一、注册公司域名千万别觉得这不是个重要的事儿。公司取个什么名字和你能不能申请到一个合适的域名息息相关。如果不想等公司做大之后再花大价钱买域名,就提前看看有啥合适的域名再想给公司取名的事儿吧。二、公司注册主要三个流程:公司核名注册地址确定各种手续
2014-08-11 17:15:39 10798 3
原创 计算一个对象占用的内存
/*** 计算一个MAP对象占用的内存* @param args*/public static void main(String[] args) {System.gc(); long total = Runtime.getRuntime().totalMemory(); //单位:byte long m1 = Runtime.getRunti
2014-08-11 16:17:50 1197
原创 Linux基础之tomcat重启关闭
打开终端 cd /java/tomcat #执行 bin/startup.sh #启动tomcat bin/shutdown.sh #停止tomcat tail -f logs/catalina.out #看tomcat的控制台输出; #看是否已经有tomcat在运行了 ps -ef |grep tomcat #如果有
2014-08-07 09:10:14 1048
原创 perl 、shell、python之shell脚本入门
终于到shell 脚本这章了,在以前笔者卖了好多关子说shell脚本怎么怎么重要,确实shell脚本在linux系统管理员的运维工作中非常非常重要。下面笔者就带你正式进入shell脚本的世界吧。到现在为止,你明白什么是shell脚本吗?如果明白最好了,不明白也没有关系,相信随着学习的深入你就会越来越了解到底什么是shell脚本。首先它是一个脚本,并不能作为正式的编程语言。因为是跑在linux的
2014-07-23 15:35:54 16001 3
prob工具和messages_zh_CN.properties
2014-04-22
JFreeChart用到的三个JAR
2013-07-10
Firefox, IE5, IE5.5, IE6, IE7, IE8多种浏览器兼容的问题
2011-01-20
动态检索,同时实现拼音检索的三个js 文件:control.js,pinyin.js,pinyincontrol.js
2011-01-17
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人