denny的专栏

目前主要关注搜索引擎,P2P,Linux下开发,算法与数据结构领域

2008年05月21日

置顶 原创 从google产品来看搜索引擎需求

1)搜索需求 人human 关键字key 信息infomation 阅读全文>

发表于 @ 2008年05月21日 12:57:00|评论(loading...)|举报|收藏

置顶 原创 搜索引擎开发经验

一 查询子系统1)逻辑表达式综合的搜索引擎通常支持逻辑与,逻辑或,逻辑非这三种操作.多个查询词的时候要进行逻辑操作,通常空格默认为&,如果在多个查询结果前进行预排序,那么就可以把原来复杂的逻辑操作转为有序集合的合并操作,时间复杂度仅为O(m+n). 2)排序a)文本排序文本内容是最重要的依据,而文本内容在词汇的集合,因此排序主要考虑到文本词汇的权重,涉及到的因素有:查询词的邻近关系,命中位置(包括标题,META关键词,还是正文),单篇文档中的命中频率. b)网页排序网页与文本的不同,是增加了meta元素和各种链接信息。因此网页的权重由三部分组成。网页权重= 文本词汇的基本权重 + 链接权重 + 查询用户行为的加权链接权重(url)主要考虑网页入度(对外链接数),镜像,目录深度。经典例子是google的pagerank. 3)分布式查询可以由一个模块向多个节点发出请求,然后对各个节点返回的结果进行合并,排序.这种情况应用在不相交数据集是能降低节点开销,提高节点容错性的.但要保证每一个文档的全部索引项在同一个节点上. 4)检索的IO瓶颈通过倒排索引得到文档位置去取内容时,或阅读全文>

发表于 @ 2008年05月21日 12:03:00|评论(loading...)|举报|收藏

2008年05月22日

原创 试分析中国未来的互联网格局

facebook为什么吸引着我来用,在使用了将近三个有后,我开始考虑这个问题。原因一,facebook将工作work,学习college, 区域region聚集成网络network,这基本上将人物理上交往空间在网络上延续下去了;原因二,facebook提供photo,video,可以对用户更全面更细致的了解;原因三,facebook提供的开放平台,有大量的应用程序,如similar,city i have visited...,用户有很多的体验,不会在试用感觉过后,就马上放弃了;原因四,facebook的推送,向登陆用户推本网络,好友发生的事情postItem,event,group等。 阅读全文>

发表于 @ 2008年05月22日 18:49:00|评论(loading...)|举报|收藏

原创 google数学之美系列

Google 黑板报 — 系列一 — 统计语言模型 http://googlechinablog.com/2006/04/blog-post.html 阅读全文>

发表于 @ 2008年05月22日 18:40:00|评论(loading...)|举报|收藏

2008年04月25日

原创 windows线程同步机制摘要

简单介绍windows下的同步机制:1)临界区;2)mutex;3)semaphore;4)event;5)interlocked;6)completion port阅读全文>

发表于 @ 2008年04月25日 18:12:00|评论(loading...)|举报|收藏

2008年04月13日

原创 vc7.0常见调试问题

VC7.0的常见调试问题阅读全文>

发表于 @ 2008年04月13日 21:18:00|评论(loading...)|举报|收藏

原创 alexa使用指南

正确认识alexa排名纳入统计的访问量仅来自使用Alexa工具栏(Alexa Toolbar)的用户, Alexa工具栏仅在windows操作系统下,Internet Explorer浏览器中使用有效,使用其它操作系统或者浏览器的访问将不能被计数。因此alexa排名有很大的局限性. 又因为alexa工具条是英文,对于非英文区的用户,安装者极少,因此alexa只能反映英语语言区中windows平台下用户的使用习惯.对于要拓展海外欧美市场的企业来说, alexa是可以供参考的一个流量统计样本.另外,外人在了解一个企业时,也可用alexa来判断这个企业大概的流量和受欢仰的产品.阅读全文>

发表于 @ 2008年04月13日 03:21:00|评论(loading...)|举报|收藏

2007年11月27日

原创 Rose建模历程(3 双向工程与小结)

双向工程 1).正向工程: 根据模型框图生成指定语言的代码 步骤:需要在组件图(component view)中创建一个组件(component),设置好需要进行转换的组件的信息,open Sepcification...-->Realizes -->assign(选择要生成代码的类),最后Generate Code确定后就生成代码了. 2).逆向工程产生模型:根据选择开发应用程序的语言生成对应的程序的代码。 Rose 的九种图 Rose图在软件工程各阶段的使用阅读全文>

发表于 @ 2007年11月27日 18:03:00|评论(loading...)|举报|收藏

2007年11月19日

原创 日志和时间函数设计

日志函数的需求: a)输出错误日志,每天一个错误日志文件; b)使用一些标准宏,准确定位错误位置和发生错误时间; c)使用有格式的输出. 时间函数需求: a)秒级second: time(NULL) b)毫秒级ms: GetTickCount (win32 api,返回当前时间的毫秒级,1tick=55us),常用于费时程序的统计,压缩一个文件. c)微秒级us: gettimeofday返回的是一个时间结构struct tm d)clock: 用来计算当前函数cpu调用的时间,如果是main函数里,则是整个程序的cpu调用时间了。clock/CLOCKS_PER_SEC那么返回的将是秒,否则返回微秒时间。 阅读全文>

发表于 @ 2007年11月19日 17:57:00|评论(loading...)|举报|收藏

2007年11月14日

原创 LAMP安装配置手记

说明:网上的各种安装说明都不是很好地说明了配置参数的来由,本文将尽可能标明每一步的必要性.已安装包不是必需的,其中mysql可以独立安装,而rpm包形式的httpd因为不是mod-so形式安装的,如果要支持php或者其它模块,要强制remove重安装编码版本. #rpm --nodeps --erase httpd 其它php可能需要的模块功能说明: libxml2: xml解析库 zlib: 开源压缩库 gd: 图形库 libpng: 用来处理png图像格式文件的库 freetype: TrueType字体绘制引擎 ZendOptimizer: JPEG库: 阅读全文>

发表于 @ 2007年11月14日 18:02:00|评论(loading...)|举报|收藏

2007年08月17日

原创 mysql使用常见问题

MYSQL4.1权限管理。阅读全文>

发表于 @ 2007年08月17日 18:40:00|评论(loading...)|举报|收藏

2007年08月16日

原创 ubuntu应用小结

开发文档:sudo apt-get install binutils-doc glibc-doc libstdc 6-4.0-doc stl-manual manpages manpages-dev dev php-doc qt4-doc libml2-doc perl-doc cpp-4.0-doc cpp-doc gcc-4.0-doc gcc-doc.阅读全文>

发表于 @ 2007年08月16日 18:15:00|评论(loading...)|举报|收藏

2007年06月29日

原创 认证的原理及使用

近年来相当流行的认证技术应该是基于证书的认证。其实证书就是一个数据块,主要包括公开密钥、主体相关的信息、证书有效的日期、证书发行者的信息和证书发行者生成的签名。 其实整个过程很简单,我就认为是二次数字签名就是了。第一次首先需要证书的实体将自己的信息和公钥提交给CA,CA确认该组织的可信赖之后,就用自己的密钥对该实体的信息和公钥进行签名。最后被签名的信息会就叫证书。站在用户的角度,用户首先接到一个证书,当然会根据CA(可信)提供的公钥进行解密,如果能解密,当然就可以获得可信赖的信息和实体公钥。然后由实体公钥再进行前面我们介绍的数字签名解密步骤。 阅读全文>

发表于 @ 2007年06月29日 19:42:00|评论(loading...)|举报|收藏

2007年06月18日

原创 2007年NASDAQ中国概念股

由全美证券交易商协会(NASD)创立的纳斯达克(National Association of Securities Dealers Automated Quotation,简称NASDAQ),纳斯达克(NASDAQ)是全球最大的电子股票交易市场,约有3200家公司在此上市,上市公司数量为美国所有股票交易市场之最。在纳斯达克挂牌上市的公司中,有322家是非美国公司,其中包括40(?)家中国内地公司和19家香港公司。阅读全文>

发表于 @ 2007年06月18日 20:44:00|评论(loading...)|举报|收藏

2007年05月11日

原创 各种排序查询的算法效率比较

一 排序。排序方式。时间复杂度。空间复杂度。算法描述。直接插入。O(n2)O(n)O(1)按KEY大小插入到有序队列。希尔插入。阅读全文>

发表于 @ 2007年05月11日 13:00:00|评论(loading...)|举报|收藏

Csdn Blog version 3.1a
Copyright © denny