2010年12月_benbendy1984

原创 apache 访问日志的调用堆栈

#0 apr_file_write (thefile=0x10c35c40, buf=0x10cb8730, nbytes=0x7fff2c876ba0) at file_io/unix/readwrite.c:217 #1 0x000000000045b583 in ap_default_log_writer (r=0x10cb5a20, handle=0x10c35c40, strs=0x10cb85e8, strl=0x10cb8658, nelts=14, le

2010-12-30 15:02:00 1022 1

原创 gdbinit 使用(转)

使用gdb调试程序的时候，有时候需要设定多个断点，重复执行某些操作，而这些操作写起来比较麻烦，这个时候就应该想起来用gdb命令脚本了，它能够很好的完成这些工作。 以设置多个断点为例，我写的命令脚本为 --------------------------------------------------- #filename: .gdbinit #gdb will read it when starting file test_gdbscript<b

2010-12-29 20:14:00 23228 2

原创 ssh 连通两台机器

404 cd ~ 405 ls 406 ssh-keygen 407 ssh-copy-id -i ./.ssh/id_rsa.pub admin@ip 408 ssh ip "ls"

2010-12-28 18:50:00 784 1

原创文档列表做析取(or操作)优化

在搜索引擎中，我们对于分词后的term进行查询，对得到的结果往往采用合取（and 操作），这种方式效率高，同时得到的结果也比较的少，但是，在小数据规模上，也往往出现无结果现象，影响召回率，所以有些时候还是得使用析取操作。 但是析取操作效率低，同时产生的结果集比较的多，对于后面的算分、排序等都有影响，所以很有必要在这个过程中作写优化工作。 为了方便，我们举个列子，查询词是 ”dq的东西怎么样“ ，经过分词后的结果： dq / 的 /

2010-12-11 14:56:00 689 1

原创 double array trie

* Double Array Trie是TRIE树的一种变形，它是在保证TRIE树检索速度的前提下，提高空间利用率而提出的一种数据结构，本质上是一个确定有限自动机(deterministic finite automaton，简称DFA)。 * 所谓的DFA就是一个能实现状态转移的自动机。对于一个给定的属于该自动机的状态和一个属于该自动机字母表Σ的字符，它都能根据事先给定的转移函数转移到下一个状态。 * 对于Double Array Trie（以下简称DAT），每个节点代

2010-12-09 17:54:00 1303 10

原创字典树 trie

Trie,又称字典树,前缀树（prefix tree），是一种树形结构，用于保存大量的字符串。 它的优点是：利用字符串的公共前缀来节约存储空间。查找、插入复杂度为O(n),n为字符串长度。 它有3个基本性质： 1. 根节点不包含字符，除根节点外每一个节点都只包含一个字符。 2. 从根节点到某一节点，路径上经过的字符连接起来，为该节点对应的字符串。 3. 每个节点的所有子节点包含的字符都不相同。 假设

2010-12-09 16:41:00 755 1

原创搜索算法

搞搜索引擎的，会碰到一些常用的算法，我罗列下，接下来也重点学习下： 二分查找 HASH查找 快速排序 窗口排序 多路归并 平衡树 B+Tree SkipList 多级索引算法 数值压缩 Bitmap索引 路由分布算法 摘要提取算法 多级相关性排序算法 内存倒排算法 堆排序

2010-12-09 15:37:00 945 2

benbendy1984的专栏