2009年11月_Terark-CTO-雷鹏

12月 11月 10月 09月 08月 07月 06月 05月 04月 02月 01月

MultipleInputs/MultipleOutpus

仔细看了一下 Hadoop.MapReduce 的代码，发现了两个新类：MultipleInputs/MultipleOutpus，再仔细看它们的详细文档，的确实现了我想要的功能：不同的InputPath，可是使用不同的InputFormat 和 Mapper可以将不同类型（可能是多种计算）的结果写入不同的Reduce Output。再看一下它们的实现代码，让我大失所望，Mu...

2009-11-26 20:53:44 180

愿微软早日倒掉

今天早上Outlook出错了，无法启动。显示“xxxxx，无法打开Outlook窗口”，去google了一下，说是用 office自带的scanpst.exe可以修复，于是照做，修复完了，还是不能启动，一样的错误信息。然后又是到‘控制面板>>邮件’重新改pst配置，又是搞pst……折腾了两个小时，还没弄好！又去google，说使用advance outlook recorver软件...

2009-11-18 11:48:38 66

希望 MapReduce 直接支持多种输入/输出

希望在 MapReduce 加入这样3个功能： 1. 可以对不同的输入文件指定不同的RecordReader/Mapper我对这个问题的解决办法是：使用不同的正则表达式来自动识别，很不优美，而且有局限 2. 一个 Map 可以输出多个不同的管道——目前只有一个我对这个问题的解决办法是：给记录打标记，使用标记来识别管道编号 3. 每...

2009-11-16 21:05:09 86

原创内嵌变长数据结构范例——trbstrmap

以前的这篇文章介绍了嵌入的变长数据结构（embeded）本文介绍一个使用这种思想实现的通用strmap容器，相当于：std::map。实现上使用了我以前写的线索红黑树——相比标准map的实现，节省了一半的结点存储开销，而平均查找时间只付出很小的额外开销，并且没有代码膨胀问题。使用大多数情况下trbstrmap // Compare是可选的，al

2009-11-03 22:13:00 956

内嵌变长数据结构范例——trbstrmap<mapped>

以前的这篇文章介绍了嵌入的变长数据结构（embeded）本文介绍一个使用这种思想实现的通用strmap容器，相当于：std::map<std::string, Mapped>。实现上使用了我以前写的线索红黑树——相比标准map的实现，节省了一半的结点存储开销，而平均查找时间只付出很小的额外开销，并且没有代码膨胀问题。使用大多数情况下tr...

2009-11-03 17:43:06 171

C++ Best Practice (高阶教程)

你所不知道的C++，临时变量、重载、模板、异常……等等你所不知道的细节

2013-02-25

Text Clustering

2007年的一个项目，对文章进行聚类分析，近千万篇文章，4核4G 的低端服务器即可有效处理并提供在线服务

2011-10-18

Hadoop.MapReduce.分析

2009年7月份写的一篇 Hadoop.MapReduce 介绍

2011-10-18

febird implemented a serialization framework(vs boost.serialization/google.protocolbuffer), can be used in protocol parsing, big/small data serialization, even in very small object serialize, performance is good. (such as key/data serialization in BerkeleyDB), it provide fast performance(30~80 times faster than boost.binary_archive), and lower memory usage. febird.rpc is a C++ remote procedure call without an IDL supporting, it based on the serialization framework. febird.rpc provide convenient usage and fast performance, and an uniform coding style. febird 实现了一个序列化框架（对比boost.serializaiton/google.protocolbuffer），可以用在协议解析，大/小数据的序列化，有极高的性能（比boost.binary_archive快30~80倍），甚至对于非常小的对象，例如只有几个字节的对象，这在序列化BerkeleyDB中key/data这么小的对象（可能只是一个整数/变长整数）时非常有用。该库提供了对BerkeleyDB的序列化封装，可以象使用std::map一样使用它。该库也实现了一个不需要IDL的rpc，使用几个宏，很方便的自动完成函数参数的序列化，比MFC的MessageMap?还要方便。使用时请checkout最新版，下载的那个版本比较旧了 @see http://blog.csdn.net/whinah http://blog.csdn.net/whinah/archive/2008/11/07/3248730.aspx http://blog.csdn.net/whinah/archive/2008/11/07/3248770.aspx

2009-04-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

whinah的专栏

MultipleInputs/MultipleOutpus

愿微软早日倒掉

希望 MapReduce 直接支持多种输入/输出

原创内嵌变长数据结构范例——trbstrmap

内嵌变长数据结构范例——trbstrmap<mapped>

C++ Best Practice (高阶教程)

有穷自动机的原理及应用

对称冗余集群架构

Text Clustering

HadoopStreaming

MapReduce应用

Hadoop.MapReduce.分析

febird C++ 库（附带所有源码）

空空如也

MultipleInputs/MultipleOutpus

愿微软早日倒掉

希望 MapReduce 直接支持多种输入/输出

原创 内嵌变长数据结构范例——trbstrmap

内嵌变长数据结构范例——trbstrmap<mapped>

C++ Best Practice (高阶教程)

有穷自动机的原理及应用

对称冗余集群架构

Text Clustering

HadoopStreaming

MapReduce应用

Hadoop.MapReduce.分析

febird C++ 库（附带所有源码）

空空如也

原创内嵌变长数据结构范例——trbstrmap