自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Java海洋

不定期分享Java、大数据等技术,个人成长、知识变现等

  • 博客(642)
  • 资源 (30)
  • 收藏
  • 关注

原创 Hbase总结(五)-hbase常识及habse适合什么场景

当我们对于数据结构字段不够确定或杂乱无章很难按一个概念去进行抽取的数据适合用使用什么数据库?答案是什么,如果我们使用的传统数据库,肯定留有多余的字段,10个不行,20个,但是这个严重影响了质量。并且如果面对大数据库,pt级别的数据,这种浪费更是严重的,那么我们该使用是什么数据库?hbase数个不错的选择,那么我们对于hbase还存在下列问题:1.Column Family代表什么?

2014-10-08 15:38:53 61449 6

转载 Hbase总结(四)- Hbase与传统数据库的区别

在说HBase之前,我想再唠叨几句。做互联网应用的哥们儿应该都清楚,互联网应用这东西,你没办法预测你的系统什么时候会被多少人访问,你面临的用户到底有多少,说不定今天你的用户还少,明天系统用户就变多了,结果您的系统应付不过来了了,不干了,这岂不是咱哥几个的悲哀,说时髦点就叫“杯具啊”。其实说白了,这些就是事先没有认清楚互联网应用什么才是最重要的。从系统架构的角度来说,互联网应用更加看重系统性

2014-10-08 11:09:13 64989 14

原创 Hbase总结(三)-Hbase与Hive的区别与联系

本帖最后由 howtodown 于 2014-5-27 02:48 编辑问题导读:hive与hbase的底层存储是什么?hive是产生的原因是什么?habase是为了弥补hadoop的什么缺陷?共同点:1.hbase与hive都是架构在hadoop之上的。都是用hadoop作为底层存储区别:2.Hive是建立在Hadoop之上为了减少Ma

2014-10-08 09:28:05 10924

原创 hbase总结(二)-hbase安装

本篇介绍两种HBase的安装方式:本地安装方式和伪分布式安装方式。安装的前提条件是已经成功安装了hadoop,而且hadoop的版本要和hbase的版本相匹配。我将要安装的hbase是hbase-0.94.11版本,需要的hadoop是hadoop-1.2.1版本。hbase下载地址:http://mirror.bit.edu.cn/apache/hbase/hbase-0

2014-10-07 22:18:32 10836

原创 Hbase总结(一)-hbase命令

下面我们看看HBase Shell的一些基本操作命令,我列出了几个常用的HBase Shell命令,如下:名称命令表达式创建表create '表名称', '列名称1','列名称2','列名称N'添加记录      put '表名称', '行名称', '列名称:', '值'查看记录

2014-10-07 15:51:04 6713

原创 MapReduce原理分析记录

Shuffle的正常意思是洗牌或弄乱,可能大家更熟悉的是Java API里的Collections.shuffle(List)方法,它会随机地打乱参数list里的元素顺序。如果你不知道MapReduce里Shuffle是什么,那么请看这张图:          这张是官方对Shuffle过程的描述。但我可以肯定的是,单从这张图你基本不可能明白Shuffle的过程,因为它与事实相

2014-09-30 17:26:34 2148 2

转载 WordCount运行原理结合代码详细分析

1、MapReduce理论简介 1.1 MapReduce编程模型  MapReduce采用"分而治之"的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然后通过整合各个节点的中间结果,得到最终结果。简单地说,MapReduce就是"任务的分解与结果的汇总"。  在Hadoop中,用于执行MapReduce任务的机器角色有两个:一个是Job

2014-09-29 16:59:23 7159 2

转载 MapReduce初级经典案例实现

1、数据去重   "数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。下面就进入这个实例的MapReduce程序设计。1.1 实例描述  对数据文件中的数据进行去重。数据文件中的每行都是一个数据。  样例输入如下所示:     1)file1: 

2014-09-29 16:53:40 15504

原创 StringTokenizer使用讲解

StringTokenizer是一个用来分隔String的应用类,相当于VB的split函数。1.构造函数public StringTokenizer(String str)public StringTokenizer(String str, String delim)public StringTokenizer(String str, String delim, boolean

2014-09-29 15:36:42 7692

转载 如何查看hadoop程序中自己添加的日志

用hadoop也算有一段时间了,一直没有注意过hadoop运行过程中,产生的数据日志,比如说System打印的日志,或者是log4j,slf4j等记录的日志,存放在哪里,日志信息的重要性,在这里散仙就不用多说了,调试任何程序基本上都得需要分析日志。 hadoop的日志主要是MapReduce程序,运行过程中,产生的一些数据日志,除了系统的日志外,还包含一些我们自己在测试时候,或者线上环境输

2014-09-29 14:17:10 13363

转载 HDFS全面解析涉及基础、命令、API

1、HDFS简介  HDFS(Hadoop Distributed File System)是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,是基于流数据模式访问和处理超大文件的需求而开发的,可以运行于廉价的商用服务器上。它所具有的高容错、高可靠性、高可扩展性、高获得性、高吞吐率等特征为海量数据提供了不怕故障的存储,为超大数据集(Large Data Set)的应用处理

2014-09-24 14:36:42 5055

原创 window下Eclipse配置联调hadoop1.0.3集群

前序:因在widow下用Eclipse联调hadoop2.2.0运行程序没有成功,网上暂时解决办法不多,就折中了下,连接hadoop1.0.3伪分布式一。用到的环境和工具1.Eclipse采用的是indio版本,这个可以用官网下载2.Eclipse hadoop插件:hadoop-eclipse-plugin-1.0.3.jar,    下载地址:http://download.c

2014-09-23 16:35:06 2000 1

转载 window下连接hadoop集群基础超详细版

1、Hadoop开发环境简介1.1 Hadoop集群简介  Java版本:jdk-6u31-linux-i586.bin  Linux系统:CentOS6.0  Hadoop版本:hadoop-1.0.0.tar.gz1.2 Windows开发简介  Java版本:jdk-6u31-windows-i586.exe  Win系统:Window

2014-09-23 16:26:46 13868 3

原创 Hadoop伪分布式环境下故障及解决

1、hadoop fs -ls不能查询,上图————————————————————————————[shim@hadoop ~]$ hadoop fs -lsls: Cannot access .: No such file or directory.[shim@hadoop ~]$ hadoop fs -ls /Found 2 itemsdrwxr-xr-x  

2014-09-22 10:34:13 1078 1

转载 Linux中find常见用法示例

·find   path   -option   [   -print ]   [ -exec   -ok   command ]   {} \;find命令的参数;pathname: find命令所查找的目录路径。例如用.来表示当前目录,用/来表示系统根目录。-print: find命令将匹配的文件输出到标准输出。-exec: find命令对匹配的文件执行该参数所给出

2014-09-19 09:57:04 816

原创 Ubuntu 安装 Ganglia并绑定hadoop集群

方法一:(缺点是安装时附加openjdk等大量程序并无法去除,优点是安装简单)$ sudo apt-get install eclipse方法二:(优点是安装内容清爽,缺点是配置麻烦)1、安装JDK,参考 Ubuntu 12.04 下安装 JDK 72、下载 Eclipse从 http://www.eclipse.org/down

2014-09-18 16:53:41 1086

转载 数据分析师规划与等级

前段时间在微博上看到一张某集团的数据分析师职位层级表,由于表格太大,在网页上显得字体太小,很难看清楚,因此我将它简化处理成如下两张表格,分为层级1和层级2:         从表中可以看出,专家级的数据分析在分析方法的要求方面与资深数据分析师是相同的,层级2与层级1的能力差别主要体现在业务分析能力、管理能力和影响力等方面。要从“使命必达”的助理数据分析师,成长为“独挡一面”的数据分

2014-09-18 09:29:57 6990

原创 HDFS文件操作命令及例子

HDFS是一种文件系统,存储着Hadoop应用将要处理的数据,类似于普通的Unix和linux文件系统,不同的是他是实现了google的GFS文件系统的思想,是适用于大规模分布式数据处理相关应用的、可扩展的分布式文件系统。它有以下优点:1、在分布式存储中,经常会出现节点失效的情况,HDFS可以持续监视,错误检查,容错处理,自动恢复;2、分布式存储的文件都是非常巨大的,HDFS重新规

2014-09-17 13:52:46 9401

原创 Hadoop安装遇到的各种异常及解决办法(2)

Failed to set setXIncludeAware(true) for parser遇到此问题一般是jar包冲突的问题。一种情况是我们向java的lib目录添加我们自己的jar包导致hadoop引用jar包的冲突。解决方案就是删除我们自己向系统添加的jar包,重新配置。将自己的jar包或者外部jar放入系统目录会在编译程序时带来方便,但是这不是一种好习惯,我们应该通过修改CL

2014-09-14 21:57:07 1782

原创 Hadoop安装遇到的各种异常及解决办法(1)

异常一:2014-03-13 11:10:23,665 INFO org.apache.Hadoop.ipc.Client: Retrying connect to server: Linux-hadoop-38/10.10.208.38:9000. Already tried 0 time(s); retry policy is RetryUpToMaximumCountWithFixedS...

2014-09-14 14:02:42 49768 2

原创 Linux系统设置Path

方法一:explor 方法         $ export PATH=$PATH;        说明:上述方法的PATH 在终端关闭 后就会消失方法二:修改家目录下的.bashrc(即:~/.bashrc)    $ vi ~/.bashrc    在 .bashrc内容中修改PATH, 保存退出     PATH=$PATH;

2014-09-14 13:56:26 937

原创 Hbase创建表插入查询数据案例

package org.robby;import java.io.IOException;import java.text.DateFormat;import java.text.SimpleDateFormat;import java.util.ArrayList;import java.util.Date;import java.util.HashSet;i

2014-09-08 13:14:17 6103

转载 hadoop新框架Yarn详解

Hadoop MapReduceV2(Yarn) 框架简介原 Hadoop MapReduce 框架的问题对于业界的大数据存储及分布式处理系统来说,Hadoop 是耳熟能详的卓越开源分布式文件存储及处理框架,对于 Hadoop 框架的介绍在此不再累述,读者可参考 Hadoop 官方简介。使用和学习过老 Hadoop 框架(0.20.0 及之前版本)的同仁应该很熟悉如下的原 Ma

2014-09-06 23:16:17 7446

转载 hadoop面试题总结2

1 使用Hive或者自定义MR实现如下逻辑product_no      lac_id  moment  start_time      user_id county_id       staytime        city_id13429100031     22554   8       2013-03-11 08:55:19.151754088   571     571     

2014-09-05 11:41:41 6827 1

转载 hadoop面试题总结1

1. 下面哪个程序负责 HDFS 数据存储。a)NameNode  b)Jobtracker  c)Datanode d)secondaryNameNode e)tasktracker答案C datanode2. HDfS 中的 block 默认保存几份?a)3 份 b)2 份c)1 份d)不确定答案A默认3分3. 下列哪个程序通常与 NameNode

2014-09-05 11:29:10 14172 2

原创 OSWorkFlow流程配置文件详解

AbstractWorkflow>>osworkflow中有关工作流流转的所有核心代码都在AbstractWorkflow中,BasicWorkflow就是派生自它,不过这个BasicWorkflow基本上没做什么事情。也许我们还可以从AbstractWorkflow派生自己的Workflow类以加入扩展功能,大概这也算是osworkflow所体现的一种灵活性了,即:允许对工作流流转的执行逻辑

2014-09-04 11:32:00 4646

转载 elipse项目部署到tomcat下

记得开始学习Java Web的时候,首先用的是Eclipse开发,但是有一个问题始终没有弄明白,做好的Web项目是如何发布到Tomcat服务器上的呢?最后得到了一个结论,那就是Eclipse这个软件可能是将项目发布到了一个临时的目录,只有打开Eclipse的时候,启动服务器才能运行Web项目。也正是因为这个原因,一直用的都是MyEclipse开发Java Web项目(十分的方便和顺手)。这几天

2014-09-03 09:42:53 2848

原创 IntelliJ IDEA 设置 编辑器字体大小背景色及快捷键

1,打开File->settings2,在Edit->colors->Fonts下创建新字体保存即可。

2014-08-25 16:37:02 75530 6

原创 Maven学习(三)之eclipse构建Maven项目

1. 安装m2eclipse插件    要用Eclipse构建Maven项目,我们需要先安装meeclipse插件    点击eclipse菜单栏Help->Eclipse Marketplace搜索到插件Maven Integration for Eclipse 并点击安装即可,如下图:  安装成成之后我们在Eclipse菜单栏中点击File->New->Othe

2014-08-20 16:56:37 3772 1

原创 Maven学习(二)之具体讲解

一:编写POM 引用  xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">   4.0.0   com.mycompany.app   my-app   1.0-SNAPSHOT   jar   my

2014-08-20 15:54:42 1038

原创 Maven学习(一)之初识

Maven是一个采用纯Java编写的开 源项目管理工具。Maven采用了一种被称之为project object model (POM)概念来管理项目,所有的项目配置信息都被定义在一个叫做POM.xml的文件中,通过该文件,Maven可以管理项目的整个声明周期,包括编 译,构建,测试,发布,报告等等。目前Apache下绝大多数项目都已经采用Maven进行管理。而Maven本身还支持多种插件,可以方

2014-08-20 15:52:56 898

转载 成为产品经理需要会的工具

上期书友会分享了工具,大家发信给我说希望能够写篇博文来分享,PPT还不够他们使。好吧,我再啰嗦一次。我不想和大家具体去讨论一个工具如何如何使用,具体有那些细节功能,我相信,工具只有在亲自使用、体验、完成工作任务才知道是否合适、好用、够用。在这里,我系统的和大家分享一下,到底会用到那些软件、工具、平台,在全局上面有一个了解。工欲善其事必先利其器,好的工具软件可以大大提高工作效率,工具各有优劣,大家按

2014-08-19 16:55:05 1573

转载 高效能的5个项目管理工具

要想获得管理的高效率,经理必须熟知并熟练运用以下几个工具:工具A:招聘面试的STAR原则 招聘面试是经理工作的一项重要内容,每个成功的经理人都必须具备高超的招聘面试技巧,以招聘到合适的人充实到工作团队中,使合适的人在合适的岗位上,创造岗位员工的高绩效。 所谓STAR原则,即Situation(背景)、Task(任务)、Action(行动)和Result(结果)四个英文单词的首字母组合。

2014-08-19 16:39:59 1604

原创 JAVA_HOME should point to a JDK not a JRE

或者是tomcat一闪而过

2014-08-19 12:31:18 23913 1

转载 Spark on Yarn 学习(一)

最近看到明风的关于数据挖掘平台下实用Spark和Yarn来做推荐的PPT,感觉很赞,现在基于大数据和快速计算方面技术的发展很快,随着Apache基金会上发布的一个个项目,感觉真的新技术将会不断出现在大家的面前.作为技术发烧友,作为一个看客,来围观下,不过从PPT中列出来的技术来看,未来的发展趋势还是说是有的,而且还是很有发展前景的. 现在Spark和Yarn也就发布2年多的时间,随着社区力

2014-08-12 14:57:18 1455

转载 注册一家互联网公司基本流程

进来说说建立第一家公司需要注意些什么。一、注册公司域名千万别觉得这不是个重要的事儿。公司取个什么名字和你能不能申请到一个合适的域名息息相关。如果不想等公司做大之后再花大价钱买域名,就提前看看有啥合适的域名再想给公司取名的事儿吧。二、公司注册主要三个流程:公司核名注册地址确定各种手续

2014-08-11 17:15:39 10798 3

原创 计算一个对象占用的内存

/*** 计算一个MAP对象占用的内存* @param args*/public static void main(String[] args) {System.gc();        long total = Runtime.getRuntime().totalMemory(); //单位:byte        long m1 = Runtime.getRunti

2014-08-11 16:17:50 1197

原创 Linux基础之tomcat重启关闭

打开终端  cd /java/tomcat  #执行  bin/startup.sh #启动tomcat  bin/shutdown.sh #停止tomcat  tail -f logs/catalina.out #看tomcat的控制台输出;  #看是否已经有tomcat在运行了  ps -ef |grep tomcat  #如果有

2014-08-07 09:10:14 1048

原创 《hadoop实战2》读书笔记(1)

1.Map与Reduce将输出转化为对的默认方法是:将每行的

2014-07-28 17:44:25 1187

原创 perl 、shell、python之shell脚本入门

终于到shell 脚本这章了,在以前笔者卖了好多关子说shell脚本怎么怎么重要,确实shell脚本在linux系统管理员的运维工作中非常非常重要。下面笔者就带你正式进入shell脚本的世界吧。到现在为止,你明白什么是shell脚本吗?如果明白最好了,不明白也没有关系,相信随着学习的深入你就会越来越了解到底什么是shell脚本。首先它是一个脚本,并不能作为正式的编程语言。因为是跑在linux的

2014-07-23 15:35:54 16001 3

Storm分布式实时计算模式 完整版

Storm分布式实时计算模式 完整版,不是完整可以直接评论,保证!

2016-05-30

《快学Scala》 完整版

完整版的scala入门书籍,《快学Scala》

2016-05-30

jcrop 插件裁剪图片demo

jcrop 插件裁剪图片demo,demo压缩包里有完整例子,部署到Apache下,直接可以看到效果

2015-04-30

hadoop-eclipse-plugin-1.0.3.jar

window系统下用indio版本的Eclipse可以成功连上集群并运行例子

2014-09-23

prob工具和messages_zh_CN.properties

tomcat监控工具prob及转换中文文件messages_zh_CN.properties,经测试确实可用,相应的使用方法可在本人博客找到,时间大概在这个上传后几分钟

2014-04-22

linux系统下32位JDK

linux系统下32位JDK,在linux系统下在JVM平台开发程序的必须要安装的

2014-03-21

jrobin-1.5.9.1.jar

tomcat等WEB项目javameloday监控需要的jrobin-1.5.9.1.jar

2014-03-13

javamelody-1.16.0.jar

tomcat等WEB项目javameloday监控需要的jar

2014-03-13

JFreeChart用到的三个JAR

里面有三个JAR包,两个是必须的:jcommon-1.0.17.jar,jfreechart-1.0.14.jar;第三个是整合struts2时用到的:struts2-jfreechart-plugin-2.3.14.jar;

2013-07-10

定时调度框架JAR包quartz-2.0.2.jar

定时调度框架quarts的JAR包,很好用

2013-03-13

JAVA定时调度框架-Quartz使用入门到精通.doc

一个很好的调度工具学习资料,可以定时调用发送短信,上传文件等功能,JAR包后面有

2013-03-13

java 中反射工具类和讲解

很常用,也很全面的一个反射工具类,并带有对每个方法讲解的文档

2012-11-13

dwr.3.0.jar

实现DWR框架必须的jar包,DWR框架可以很好的实现ajax效果

2012-09-20

获取汉字拼音的JS

可以很好的获取汉字的拼音,汉字的全拼和首字母拼

2012-08-21

把wsdl文件或地址转化成java代码工具

在myeclipse下的一个web程序,把wsdl文件转化成java代码

2012-08-21

导入excel工具类和相应的jar包

很详细的导入excel工具类和相应的jar包,很详细,实现的方法很多

2011-09-28

详细的导出pdf工具类和jar包

详细的导出pdf工具类和jar包 ,工具类中好几中实现方式

2011-09-28

导出excel详细资料,jar和实现类

很详细的导出excel工具类,能够应用不同的实体类,还有相应的jar

2011-09-28

java3D技术,java非常最新的技术和3D动画链接

最新的 java3D 技术 java非常最新的技术和3D动画链接放在一起

2011-02-25

android 教程

很到位的分析,很真实的技术,android学习的好资料

2011-02-14

140个java经典案例

很好java学习资料,很系统,很容易上手

2011-01-22

Firefox, IE5, IE5.5, IE6, IE7, IE8多种浏览器兼容的问题

Firefox, IE5, IE5.5, IE6, IE7, IE8多种浏览器兼容的问题,解决以上浏览器存在的兼容问题

2011-01-20

动态检索,同时实现拼音检索的三个js 文件:control.js,pinyin.js,pinyincontrol.js

现拼音检索的三个js 文件:control.js,pinyin.js,pinyincontrol.js

2011-01-17

导出,下载excel包poi_3.2.jar

导出,下载excel包poi_3.2.jar,很常用的一种导出excel方式

2011-01-17

导出,下载excel包jxl.jar

导出,下载excel包jxl.jar,很常用的一种导出excel的方式

2011-01-17

java导出页面表格数据到excel表

一个完整的导出html页面数据到excel表内,超简单

2011-01-11

myelipse快捷键

很实用的快捷键,增加工作效率,一个人是否懂得较多快捷键,很大程度上体现了他的技术水平

2010-12-17

搜索引擎开发实例详细设计文档

本搜索开发实例详细分析了整个开发的流程和关键技术,其中有图片和画图。

2010-05-15

xml文档的解析采用最流行的DOM4J技术

本资源详细地描述了XML文档的解析方法,讲述了最流行的解析XML文档方法:DOM4J.

2010-05-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除