搜索引擎
文章平均质量分 86
memset
这个作者很懒,什么都没留下…
展开
-
倒排索引--二叉树
这两天写了一个索引的建立与搜索过程,目前是对13M的数据进行了测试,整个过程只用了不到6s,这个数字是值得庆祝的。算是一个比较快的算法了。在此要感谢wang sir和xu sir的支持。对这两位表示由衷的感谢。整个算法过程对文件中每个字符进行了一次遍历,对每次得到的字符进行建立二叉树(综合考虑,二叉树还是最好的一个数据结构),并且统计总共有多少个字符和每个字符出现的次数,存放在一个数组中,还对原创 2013-03-20 17:41:49 · 1740 阅读 · 0 评论 -
索引--优化数据结构--平衡二叉树(avl)
天下文章一大抄,最近在做第二版的搜索引擎,比起第一版总要有很大的改进才行。首先想到的是要对数据结构进行优化,就要把原来“倒排索引--二叉树”http://blog.csdn.net/txgc0/article/details/8697380这边文章中提到的二叉树进行优化,众所周知,单纯的简单二叉树的坏处就怕退化,退化成一条链表后,这查找速度是相当难以让人接受的。平衡二叉树的好处就是原创 2013-05-02 17:37:48 · 884 阅读 · 0 评论 -
搜索--md5
MD5是一个加密压缩算法,传说中绝对安全的算法。是一个非可逆的过程。输入:一个字符串输出:一个16字节的字符串MD5保证了输出为不可重复(2004年前)。2004年8月17日的美国加州圣巴巴拉的国际密码学会议(Crypto’2004)上,来自中国山东大学的王小云教授做了破译MD5、HAVAL-128、 MD4和RIPEMD算法的报告,公布了MD系列算法的破解结果。宣告了固若金汤原创 2013-05-02 17:47:15 · 842 阅读 · 0 评论 -
搜索引擎中缓存(cache)用到的哈希(hash)算法
前一段查看了关于哈希的各种算法,发现流传最广的还算伟大的暴雪(dota爱好者)工程师得到的一种算法,有很多博客中都有对其的介绍,我在此就不多废话了。虽说是借鉴,也只是一小部分的抄袭。不知道是否冒犯了暴雪的版权。我修改成了我需要的功能,我的目标是对6w数据进行哈希计算然后暂存到内存中,当做缓存使用。这是搜索引擎中必须要做的一步,当然,代码是公司机密,我只是把我写的代码雏形拿出来,看看有没有值原创 2013-04-26 11:21:01 · 2607 阅读 · 0 评论