- 博客(7)
- 收藏
- 关注
原创 apache 访问日志的调用堆栈
<br /><br />#0 apr_file_write (thefile=0x10c35c40, buf=0x10cb8730, nbytes=0x7fff2c876ba0) at file_io/unix/readwrite.c:217<br />#1 0x000000000045b583 in ap_default_log_writer (r=0x10cb5a20, handle=0x10c35c40, strs=0x10cb85e8, strl=0x10cb8658, nelts=14, le
2010-12-30 15:02:00 1022 1
原创 gdbinit 使用(转)
<br />使用gdb调试程序的时候,有时候需要设定多个断点,重复执行某些操作,而这些操作写起来比较麻烦,这个时候就应该想起来用gdb命令脚本了,它能够很好的完成这些工作。<br />以设置多个断点为例,我写的命令脚本为<br />---------------------------------------------------<br />#filename: .gdbinit<br />#gdb will read it when starting<br />file test_gdbscript<b
2010-12-29 20:14:00 23227 2
原创 ssh 连通两台机器
<br /> 404 cd ~<br /> 405 ls<br /> 406 ssh-keygen<br /> 407 ssh-copy-id -i ./.ssh/id_rsa.pub admin@ip<br /> 408 ssh ip "ls"
2010-12-28 18:50:00 784 1
原创 文档列表做析取(or操作)优化
<br /> 在搜索引擎中,我们对于分词后的term进行查询,对得到的结果往往采用合取(and 操作),这种方式效率高,同时得到的结果也比较的少,但是,在小数据规模上,也往往出现无结果现象,影响召回率,所以有些时候还是得使用析取操作。<br /> 但是析取操作效率低,同时产生的结果集比较的多,对于后面的算分、排序等都有影响,所以很有必要在这个过程中作写优化工作。 <br /> 为了方便,我们举个列子,查询词是 ”dq的东西怎么样“ ,经过分词后的结果: dq / 的 /
2010-12-11 14:56:00 689 1
原创 double array trie
<br />* Double Array Trie是TRIE树的一种变形,它是在保证TRIE树检索速度的前提下,提高空间利用率而提出的一种数据结构,本质上是一个确定有限自动机(deterministic finite automaton,简称DFA)。 <br />* 所谓的DFA就是一个能实现状态转移的自动机。对于一个给定的属于该自动机的状态和一个属于该自动机字母表Σ的字符,它都能根据事先给定的转移函数转移到下一个状态。 <br />* 对于Double Array Trie(以下简称DAT),每个节点代
2010-12-09 17:54:00 1303 10
原创 字典树 trie
<br /> <br />Trie,又称字典树,前缀树(prefix tree),是一种树形结构,用于保存大量的字符串。<br />它的优点是:利用字符串的公共前缀来节约存储空间。查找、插入复杂度为O(n),n为字符串长度。 <br />它有3个基本性质:<br />1. 根节点不包含字符,除根节点外每一个节点都只包含一个字符。<br />2. 从根节点到某一节点,路径上经过的字符连接起来,为该节点对应的字符串。<br />3. 每个节点的所有子节点包含的字符都不相同。<br /> <br />假设
2010-12-09 16:41:00 753 1
原创 搜索算法
<br />搞搜索引擎的,会碰到一些常用的算法,我罗列下,接下来也重点学习下: <br /> <br />二分查找<br />HASH查找<br />快速排序<br />窗口排序<br />多路归并<br />平衡树<br />B+Tree <br />SkipList<br />多级索引算法<br />数值压缩<br />Bitmap索引<br />路由分布算法<br />摘要提取算法<br />多级相关性排序算法<br />内存倒排算法<br />堆排序<br /> <br />
2010-12-09 15:37:00 945 2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人