搜索引擎
文章平均质量分 79
shuilv2000
乐观,积极
展开
-
全面阐述搜索引擎技术、应用及商业模式
8月5日,百度公司在美国纳斯达克上市,其表现引起全球关注。该公司的发行价为27美元,其时的P/E即已超过去年8月在纳斯达克上市的Google,而Google是全球排名第一的搜索引擎。去年的Google以发行价85美元上市后,股价上冲到300美元以上,市值达到800亿美元。百度上市当日,开盘价即达到66美元,最高股价达到151美元,最后收盘于122美元。其当日股价上升幅度超过Google一年的“努力原创 2008-11-17 16:32:00 · 696 阅读 · 0 评论 -
分词算法
现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。 1、基于字符串匹配的分词方法 这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大原创 2008-11-17 17:07:00 · 611 阅读 · 0 评论 -
中文搜索引擎技术揭密:系统架构
网页数据的快速采集、海量数据的索引和存储、搜索结果的相关性排序、搜索效率的毫秒级要求、分布式处理和负载均衡、自然语言的理解技术 1、数据量 传统全文检索系统面向的是企业本身的数据或者和企业相关的数据,一般索引库规模多在GB级,数据量大的也只有几百万条;但互联网网页搜索需要处理几十亿的网页,搜索引擎的策略都是采用服务器群集和分布式计算技术。 2、内容相关性原创 2008-12-09 16:40:00 · 695 阅读 · 0 评论