2013年11月_Terark-CTO-雷鹏

12月 11月 09月 08月 03月

原创有多个初始状态的 DFA

最近做了一项工作：允许一个 DFA 有多个起始状态（可以称作根: root）。这样有以下几个好处：对于多正则表达式匹配（Multiple Regular Expression Matching）的 DFA在创建多正则表达式匹配的 DFA 的过程中，有一个 DFA 的 Union 操作，这操作通过 NFA 到 DFA 的转化来完成，在这个过程中，如果状态膨胀失去控制（最坏情况是指数级，一般情

2013-11-28 22:17:55 6959

原创 gcc 4.7.3 的一个 c++11 bug

昨天一个朋友 checkout 了我的 febird 代码，编译时出现了一个诡异的错误。经过仔细勘察，他的 g++ 版本是 4.7.3，而我测试过的 g++4.7.2，g++4.8.2均无问题。后来修改代码，解决了那个问题，但要还原那个bug时，很费了一番力气。以下是还原的那个 bug 的一段简单代码，不过可能不是最简单的。#include struct A { int

2013-11-13 10:30:50 3634 1

原创多正则表达式匹配（Multiple Regular Expression Matching）

目前 febird 中的自动机库已支持正则表达式，并且，支持的是多正则表达式匹配：给定 M 个正则表达式，每个正则表达式有一个 [0, M) 的唯一 ID，该算法为这些正则表达式生成一个 DFA。再给定一个输入文本 Text ，如果只计最长匹配，该 Text 可以匹配 M 个正则表达式中的的 K 个在该DFA上运行我的匹配算法，可以在 O(strlen(Text) + K) 的时间

2013-11-03 22:22:16 7521 15

C++ Best Practice (高阶教程)

你所不知道的C++，临时变量、重载、模板、异常……等等你所不知道的细节

2013-02-25

Text Clustering

2007年的一个项目，对文章进行聚类分析，近千万篇文章，4核4G 的低端服务器即可有效处理并提供在线服务

2011-10-18

Hadoop.MapReduce.分析

2009年7月份写的一篇 Hadoop.MapReduce 介绍

2011-10-18

febird implemented a serialization framework(vs boost.serialization/google.protocolbuffer), can be used in protocol parsing, big/small data serialization, even in very small object serialize, performance is good. (such as key/data serialization in BerkeleyDB), it provide fast performance(30~80 times faster than boost.binary_archive), and lower memory usage. febird.rpc is a C++ remote procedure call without an IDL supporting, it based on the serialization framework. febird.rpc provide convenient usage and fast performance, and an uniform coding style. febird 实现了一个序列化框架（对比boost.serializaiton/google.protocolbuffer），可以用在协议解析，大/小数据的序列化，有极高的性能（比boost.binary_archive快30~80倍），甚至对于非常小的对象，例如只有几个字节的对象，这在序列化BerkeleyDB中key/data这么小的对象（可能只是一个整数/变长整数）时非常有用。该库提供了对BerkeleyDB的序列化封装，可以象使用std::map一样使用它。该库也实现了一个不需要IDL的rpc，使用几个宏，很方便的自动完成函数参数的序列化，比MFC的MessageMap?还要方便。使用时请checkout最新版，下载的那个版本比较旧了 @see http://blog.csdn.net/whinah http://blog.csdn.net/whinah/archive/2008/11/07/3248730.aspx http://blog.csdn.net/whinah/archive/2008/11/07/3248770.aspx

2009-04-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

whinah的专栏

原创有多个初始状态的 DFA

原创 gcc 4.7.3 的一个 c++11 bug

原创多正则表达式匹配（Multiple Regular Expression Matching）

C++ Best Practice (高阶教程)

有穷自动机的原理及应用

对称冗余集群架构

Text Clustering

HadoopStreaming

MapReduce应用

Hadoop.MapReduce.分析

febird C++ 库（附带所有源码）

空空如也

原创 有多个初始状态的 DFA

原创 gcc 4.7.3 的一个 c++11 bug

原创 多正则表达式匹配（Multiple Regular Expression Matching）

C++ Best Practice (高阶教程)

有穷自动机的原理及应用

对称冗余集群架构

Text Clustering

HadoopStreaming

MapReduce应用

Hadoop.MapReduce.分析

febird C++ 库（附带所有源码）

空空如也

原创有多个初始状态的 DFA

原创多正则表达式匹配（Multiple Regular Expression Matching）