自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(342)
  • 资源 (4)
  • 收藏
  • 关注

原创 关于Hadoop中reducer端combiner的一些思考

什么是Combiner Functions“Many MapReduce jobs are limited by the bandwidth available on the cluster, so it pays to minimize the data transferred between map and reduce tasks. Hadoop allows the user to

2012-05-23 00:11:18 5137

转载 如何在Java中选择Map/List/Set

很实用,分享一下。简单版本复杂版本参考:http://initbinder.com/articles/cheat-sheet-for-selecting-maplistset-in-java.htmlhttp://www.sergiy.ca/guide-to-selecting-appropriate-map-collection-in-java/

2012-04-13 06:03:05 4469 4

原创 Java的内存结构(Memory Structure)和垃圾收集(Garbage Collection)图解

JVM 内存包含如下几个部分: Heap Memory 存放Java对象Non-Heap Memory 存放类加载信息和其它meta-dataOther 存放JVM 自身代码等在JVM启动时,就已经保留了固定的内存空间给Heap内存,这部分内存并不一定都会被JVM使用,但是可以确定的是这部分保留的内存不会被其他进程使用。这部分内存大小由 -Xmx参数指定。而另一部分内存在J

2012-04-13 02:48:41 24097 23

原创 Java常见容器(Container)关系图

Java提供了丰富的数据类型以实现各种操作,下图供参考大图下载: http://bit.ly/Hf3KDx参考:Think In Java 4th Edition

2012-04-04 12:33:40 12073 1

原创 [算法] 找到最相邻的3元组

问题如下: You are given with three sorted arrays ( in ascending order), you are  required to find a triplet ( one element from each array) such that distance  is minimum. Distance is defined like th

2012-03-29 22:50:01 2905

原创 Hadoop套装软件包

如果你在使用Hadoop的同时,还想使用HBase,Hive等,一个个的安装实在是费时费力。一个打包的套装就解决了这个问题。下面介绍几个市面上最重量级公司的产品。建议下载虚拟机版本进行测试或者评估。Cloudera’s Distribution Including Apache Hadoop (CDH)CDH3 Update 3 PackagingTo view t

2012-03-21 08:08:54 4499

原创 Apache Hadoop 0.23 介绍

Hadoop 1.0 (0.20.2×) 终于在27 December, 2011正式发布了【1】。下面是一个Hadoop的简单历史【2】:这个也是目前最稳定的版本。新的版本也在开发之中,那就是0.23或者2.0吧!在新版本中引入了很多新的特性,其中着重说一个:HDFS FederationNextGen MapReduceHDFS Federation目前的H

2012-01-13 05:50:00 4065 2

原创 Perl中的闭包(closure)

什么是闭包,“This is a notion out of the Lisp world that says if you define an anonymous function in a particular lexical context, it pretends to run in that context even when it's called outside of the con

2011-12-17 03:44:57 4146

原创 回调函数(callback)浅析

编程一段时间之后,都会或多或少的接触到“回调函数”的概念,我对这个概念的理解也是浅尝辄止,就此分享一些浅见。"软件模块之间总是存在着一定的接口,从调用方式上,可以把他们分为三类:同步调用、回调和异步调用。同步调用是一种阻塞式调用,调用方要等待对方执行完毕才返回,它是一种单向调用;回调是一种双向调用模式,也就是说,被调用方在接口被调用时也会调用对方的接口;异步调用是一种类似消息或事件的机制,不过

2011-12-17 03:19:37 3524 1

原创 实时数据分析Real-time data analysis frameworks (or stream system)

最近的工作中涉及要设计一个系统可以实时的监控系统的状态,比如hadoop任务的执行情况,服务器的健康等。这个系统需要实时的处理对象产生的信息,并发送给用户。这个系统显然需要具备如下特性:可靠性大数据处理实时性显然这将是一个基于Hadoop上的项目,目前可供参考的有Kafka: Kafka is a messaging system that was originally

2011-12-17 01:41:19 3204

原创 如何编写MapReduce代码

关于maperduce,可以参考:http://en.wikipedia.org/wiki/MapReduce这里假设你具备一定的hadoop编程经验。Mapper接受原始输入,比如网站日志,分析并输出中间结果。经历排序,分组成为Reducer的输入,经过统计汇总,输出结果。当然这个过程可以是多个。其中Mapper比较简单,但是需要对输入具有深入的理解,不光是格式还包括意义。其中有

2011-12-01 04:16:28 3695

原创 2011-11~17 新闻采集

Microsoft will release Win 8. (Developer Preview)With Bitcasa, The Entire Cloud Is Your Hard Drive For Only $10 Per Month (云端存储越来越

2011-09-14 08:21:01 2223

原创 安装和使用Oracle Instant Client 和 SQLPlus

首先去官方网站下载适当的版本,我是win7 64位系统,所以就下载了最新的instantclient-basic-windows.x64-11.2.0.2.0和instantclient-sqlplus-windows.x64-11.2.0.2.0,解压缩到同一个文件下,比如in

2011-08-20 02:15:33 8831

原创 用Devel::NYTProf 优化perl脚本性能

前几天发一下一个脚本运行非常慢,使用time只能知道总的时间,却无法确认原因,发现Devel::NYTProf是个很不错的工具。如果你有root权限,则:perl -MCPAN -e shell>installJSON::Any(不安这个东东,在nyt生成html的时

2011-08-18 05:58:46 3577

原创 Perl中的grep和map

grep返回一个数字中符合条件的所有元素;map对数字中所有元素实施转化并返回结果。两者都遍历了数组,但一个用来搜索,一个用来转化。两者都支持表达式或者代码块。#!/usr/bin/perl -wuse strict;#get positive numbermy @num

2011-08-10 01:13:29 2707

原创 LINUX Shell 下求两个文件交集和差集的办法

假设两个文件FILE1和FILE2用集合A和B表示,FILE1内容如下:abceda FILE2内容如下:cdac基本上有两个方法,一个是comm命令,一个是grep命令。分别介绍如下: comm命令, Compare sorted files FILE1 and FILE2 line by line. With  no op

2011-07-01 13:44:00 77328 5

原创 如何在Java中定义常量(Constant)

这里列举4种方法,各有千秋,要看具体的应用场合了。

2011-05-14 12:07:00 158037 10

原创 WeakReference,SoftReference 和 PhatomReference 浅析

<br />前几天发了一篇关于垃圾收集的帖子,自己也不是这方面的专家,所以肯定有很多问题和错误,也请大家多多包涵和指教。<br />今天再进一步谈一下这个几个Reference吧。老实说,这几个名词我也是最近才听说,平时也没有实际使用过,但是确实在java 1.2就存在的,看来真的是学无止境啊。<br /> softly reachable:The object is the referent of a SoftReference. The garbage collector will attempt to

2011-04-24 15:16:00 4895 4

原创 也谈谈Java的垃圾收集(garbage collection)

垃圾收集是Java语言非常显著的特点,不像C语言那样,老是要考虑什么数字的越界什么的。什么是垃圾(garbage)呢?“An object is considered garbage when it can no longer be reached from any pointer in the running program.”首先要了解一下内存的分配:静态分配( Static Allocation ):静态变量和全局变量的分配形式。自动分配( Automatic Allocation ):存放基本类型的

2011-04-21 12:48:00 11468 24

原创 Hadoop书籍介绍

市面上关于Hadoop的书籍其实并不多,好像都是外国人的,所以基本上都要看英文的,我就介绍一下我看过的和正在看的吧。

2011-03-30 02:34:00 8970 1

转载 Hadoop的生态系统

一张很有意思的图片,通过它你可以从开发人员角度大致了解现在的云计算

2011-03-30 02:06:00 244 1

原创 Ubuntu安装WMware Workstation

没想到在Linux下面安装如此的方。当然workstation需要序列号了,player是免费的。

2011-02-12 09:05:00 1807

原创 如何增加VM Ware虚拟机的硬盘空间

安装了一个Ubuntu虚拟机,一开始只分配了10G空间,但是现在需要用它处理数据,发现空间不够用了,使用下面的步骤就可以很容易的增加空间了。

2011-02-11 05:56:00 3970

原创 Cloudera’s Distribution for Apache Hadoop

很不错的一个增强版本,A 100% Apache licensed, free, stable distribution offering RPM, Debian, AWS and automatic configuration options。而且还有Ubuntu虚拟机,直接就开始编码了。

2011-02-10 08:45:00 2215

原创 【非技术贴】Laptop到Netbook再到XXpad

个人电脑在飞速的发展,人们现在越来越离不开网络了,能够随时接入网络是非常方便的事情,也谈谈我自己的感受。

2011-02-10 06:24:00 1259

原创 如何在Linux下禁用ARP协议

有时候出于安全或者其他原因需要禁用ARP协议,在Linux下至少有3种方法。

2010-11-03 22:00:00 12807

原创 SQL Server 2005全文索引(full text search)

数据库提供全文索引已经很普及了,之前使用了PostgreSQL和MySQL的,今天尝试了SQL Server 2005。 首先新建一个数据库,在新建一个表格,选择Properties->Files,启用索引, 要建立索引,需要有有一个unique的列,我选择建立一个自动递增的整数列。在数据库的storage->Full Text Catalogs建立一个新的“full text search catalog”。选择你要建立索引的列,邮件点击新建“Fulltext Index…”。然后选择表格右键点

2010-10-25 22:14:00 2741

原创 如何在Lucene里面进行数字范围搜索 (Numeric Range Query)

这次安装了最新的3.0.2版本,发现相对一年前有了很大的改进,API更加简洁和明了了,还加入了很多新的实用功能。比如进行类似数据库的数字范围搜索也变的非常简单了。

2010-09-21 03:39:00 4210

转载 Java集合(转帖)

这篇文章关于Java的集合,总结的非常好也很全面

2010-09-13 22:36:00 1222

原创 使用Desktop API in Java SE 6打开文件或者网页

昨天需要从Java里面调用网页浏览器打开一个XML文件,发现Desktop API in Java SE 6非常的方便。

2010-09-13 22:32:00 1105

原创 使用replaceAll替换“/”为“/”

昨天碰到一个问题:替换一个字符串里面所有的“/”为"/",因为windows里面路径使用“/”。

2010-09-13 22:22:00 2420

原创 下载 Eclipse Helios(年度版)

<br />Eclipse终于发布了3.6版本的Helios了,之前也下载试用过,似乎没有感觉到和3.5有很多的不同。也许我需要的功能太有限了吧。<br />官方主页:http://www.eclipse.org/helios/<br /> <br />感觉社区很繁荣,“它是 39 个 Eclipse 项目的同步发行版本。据统计,Helios 版本包含 3300 万行代码,这由来自 44 家公司的 5000 名 Eclipse.org 成员共同开发完成。” 但是其中也不乏大公司的资助吧。<br /> <br

2010-09-09 21:26:00 1840

原创 安装配置WordPress 3.0的多站点功能

今天终于配置成功了WordPress 3.0的多站点功能,因为涉及不少服务器配置,记录一下。

2010-08-13 23:11:00 1989

原创 Java中的Set操作

Set是一种很重要数据类型,不同于Array,List或者HashMap。尤其是Java提供了一些操作以方便集合操作,这里就总结一下最近的使用的心得。

2010-08-12 23:38:00 6617

原创 Apache Hadoop 项目介绍

云计算是目前已经成为主流,那么毫无疑问Hadoop是目前用的最广泛的开源云计算开发包了,而且很多其它的项目现在都移植到了Hadoop上面。

2010-08-11 05:42:00 2594

原创 什么是信息集成(Information Integration)

今天小组讨论的时候,聊到了信息集成,Information Integration。但是到底什么是信息集成,搜索了一下居然发现连wikipedia也只有一个很简单的页面,相对于数据挖掘(data mining)已经形成一门学科而言,信息集成还处在一个成型的阶段吧。

2010-08-06 11:46:00 2605

原创 Java中的参数传递

这是一个老生常谈的问题了,Java中传递参数是by value还是by reference。这几天在这个问题上犯晕了,还是仔细的复习了一下。

2010-07-24 11:55:00 880

原创 如何判断数据库中是否存在一个数据表

在使用Java连接数据库的进行查询的时候,如果数据表不存在,通常会产生一个exception。这里提供一个通用的方法来检测数据表是否存在。

2010-07-13 05:19:00 4295 3

原创 HTTP Client 编写

最近的项目需要使用HTTP Client 从网上下载下载图片,这篇文章就分析一下如何使用这个功能吧。最后包含一个完整的例子,涵盖如何读取数据,生成图片并显示。

2010-07-02 23:55:00 4216

原创 推荐《冒号课堂——编程范式与OOP思想》

* 什么是事件?有哪些不同类型的事件? * 什么是回调函数?什么是异步同调?它们有什么用处? * 控制反转的目的是什么?它是如何实现的?在框架设计中起什么作用? * 控制反转、依赖反转原则和依赖注射的共同点是什么? * 事件驱动式编程有哪些关键步骤? * 异步过程特点和作用是什么? * 事件驱动式编程最重要的特征是什么?它们是如何实现的? * 事件驱动式与观察者模式、MVC模型有何关系?这只是其中的一章中的问题,已经很有深度

2010-06-20 12:29:00 1570

Microsoft's Strategy for Cloud Computing

微软关于云计算的PPT演示文档 Shawn MurrayCloud Computing Director Microsoft CorporationShawn Objectives •Value of cloud computing and potential challenges •What is Software + Services and Microsoft’s long term vision •Microsoft OnlineServices •Windows Azure and the Windows Azure Platform •Getting Started

2010-04-28

Cloud Computing Hype and Reality from IBM

IBM关于云计算的PPT演示文档 By Ric Telford Vice President, IBM Cloud Services “Cloud Computing”describes a new consumption and delivery model for IT services

2010-04-28

Distributed Services with OpenAFS: for Enterprise and Education

This book shows in detail how to build enterprise-level secure, redundant, and highly scalable services from scratch on top of the open source Linux operating system, suitable for small companies as well as big universities. The core architecture presented is based on Kerberos, LDAP, AFS, and Samba. It is shown how to integrate web, message related, data base and other services with this backbone. This architecture provides a Single-Sign-On solution for different client platforms and can also be employed for clustering. Although it is implemented with Debian GNU/Linux, the content can be applied to other UNIX flavors.

2009-01-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除