- 博客(7)
- 资源 (10)
- 收藏
- 关注
原创 SVN版本控制与恢复删除
首先我看了看别人介绍的版本控制 如下:1. 版本控制介绍 1.1. 什么是版本控制版本控制系统用于保存编写开发应用程序时的文档的各个修订版(revision)。版本控制也称作Revision Control System(RCS)。名词解释:修订版(revision):可以认为是某个文件在其生命周期内各个保存的快照,每个快照和一个时间区间对应
2014-03-27 16:15:50 5587
原创 hadoop任务运行源代码深究
1、TaskTracker.TaskInProgress.launchTask():创建并启动TaskRunner,对于MapTask,创建的是MapTaskRunner,对于ReduceTask,创建的是ReduceTaskRunner2、调用TaskRunner.start():设置child进程的classpath、启动命令、标准输出、错误输出、启动参数、日志大小限制、工作目录等3、
2014-03-24 18:08:44 1069
转载 map获取输入文件名称和GenericOptionsParser使用
该文章中实现业务需求的方法不可取(其实可以使用hadoop提供的多输入来实现),但是该例子去能很好的展现在map函数中怎么拿到输入文件的名称:原文地址:http://datamachine.iteye.com/blog/1963256选择Hadoop,低成本和高扩展性是主要原因,但但它的开发效率实在无法让人满意。 以关联计算为例。 假设:HDFS上有2个文件,分别是
2014-03-20 18:37:29 3712
原创 为什么使用 SLF4J 而不是 Log4J 来做 Java 日志
最近在看同事基于YARN开发的实时流框架(该框架已经用于公司30多个应用了),用到SLF4J日子记录框架,平时我一般都用LOG4J,对SLF4J有点陌生,研究了一下这个日志框架,以下是转载的一篇很好介绍SLF4J的文章。原文地址:http://www.oschina.net/translate/why-use-sl4j-over-log4j-for-logging
2014-03-11 22:50:44 1490
转载 怎样从10亿查询词找出出现频率最高的10个
原文地址:http://dongxicheng.org/big-data/select-ten-from-billions/1. 问题描述在大规模数据处理中,常遇到的一类问题是,在海量数据中找出出现频率最高的前K个数,或者从海量数据中找出最大的前K个数,这类问题通常称为“top K”问题,如:在搜索引擎中,统计搜索最热门的10个查询词;在歌曲库中统计下载率最高的前10首歌等等。
2014-03-10 22:22:46 1536
原创 Linux netcat 命令
Netcat 或者叫 nc 是 Linux 下的一个用于调试和检查网络工具包。可用于创建 TCP/IP 连接,最大的用途就是用来处理 TCP/UDP 套接字。这里我们将通过一些实例来学习 netcat 命令。1. 在服务器-客户端架构上使用 Netcatnetcat 工具可运行于服务器模式,侦听指定端口1$ nc -l 2389
2014-03-09 20:32:39 1180
转载 两个文件的共同部分或者差异部分(基于shell命令)
最近有几个实时流项目需要基于新框架改造,改造完成之后要测试对比数据是否正确,网上找了一下关于基于shell命令进行文本文件对比的信息。以下就是一篇很不错的文章,转载过来以后还能用到:转载地址:http://blog.csdn.net/tianmohust/article/details/6997924 1 comm命令在我们的开发和运营中,特别是对业务进行监控的时候,我们
2014-03-06 14:33:38 19309
HTTP协议详解 学习servlet的必备资料
2009-10-25
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人