搜索引擎
文章平均质量分 79
strong_chenfei
这个作者很懒,什么都没留下…
展开
-
中文分词技术
信息的飞速增长,使搜索引擎成为人们查找信息的首选工具,Google、百度、中国搜索等大型搜索引擎一直是人们讨论的话题。随着搜索市场价值的不断增加,越来越多的公司开发出自己的搜索引擎,阿里巴巴的商机搜索、8848的购物搜索等也陆续面世,自然,搜索引擎技术也成为技术人员关注的热点。 搜索引擎技术的研究,国外比中国要早近十年,从最早的Archie,到后来的Excite,以及altvista、overt原创 2007-08-28 11:52:00 · 646 阅读 · 0 评论 -
网络蜘蛛基本原理
网络蜘蛛基本原理网络蜘蛛即Web Spider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么网络蜘蛛就转载 2007-08-28 14:51:00 · 851 阅读 · 0 评论 -
搜索引擎发展史
在互联网发展初期,网站相对较少,信息查找比较容易。然而伴随互联网爆炸性的发展,普通网络用户想找到所需的资料简直如同大海捞针,这时为满足大众信息检索需求的专业搜索网站便应运而生了。 现代意义上的搜索引擎的祖先,是1990年由蒙特利尔大学学生Alan Emtage发明的Archie。虽然当时World Wide Web还未出现,但网络中文件传输还是相当频繁的,而且由于大量的文件散布在各个分散的FTP转载 2007-08-28 15:14:00 · 597 阅读 · 0 评论 -
Libscws C API 使用说明
Libscws C API 使用说明Libscws - 0.0.1 C API 说明0. 概述Libscws 代码是当前 SCWS(简易中文分词) 算法使用C语言编写的链接库,目前仅基于 Unix 族的操作系统,可能必须适当修改才能运行在 Windows 平台中。这套 scws 库没有外部扩展依赖,代码力争简洁高效,针对分词词典组织上做了一些优化。除分词外,由于分词词库采用的是自行设计的xdb 和转载 2007-08-28 11:31:00 · 856 阅读 · 0 评论 -
汉字编码问题
汉字编码问题由于常常要和汉字处理打交道,因此,我常常受到汉字编码问题的困扰。在不断的打击与坚持中,也积累了一点汉字编码方面的经验,想和大家一起分享。一、汉字编码的种类 汉字编码中现在主要用到的有三类,包括GBK,GB2312和Big5。 1、GB2312又称国标码,由国家标准总局发布,1981年5月1日实施,通行于大陆。新加坡等地也使用此编码。它是一个简化字的编码规范,转载 2007-09-11 11:48:00 · 532 阅读 · 0 评论