搜索引擎技术
文章平均质量分 65
dbigbear
好
展开
-
各搜索引擎免费登录地址
Google免费登录 [http://www.google.com/intl/zh-CN/add_url.html] 百度免费登录 [http://www.baidu.com/search/url_submit.htm] 雅虎免费登录 [http://cn.yahoo.com/docs/info/suggest.html] 一搜登陆 [htt转载 2007-01-20 00:36:00 · 1438 阅读 · 0 评论 -
分词:词典+正反向全切分/词典+正反向最大匹配切分
内容摘要 IKAnalyzer基于lucene2.0版本API开发,实现了以词典分词为基础的 正反向全切分 以及 正反向最大匹配切分 两种算法,是Lucene Analyzer接口的实现 IKAnalyzer基于lucene2.0版本API开发,实现了以词典分词为基础的 正反向全切分 以及 正反向最大匹配切分 两种算法,是Lucene Analyzer接口的实现,代码使用例转载 2007-01-24 17:14:00 · 6367 阅读 · 0 评论 -
分词:几个免费的中文分词模块
http://hi.baidu.com/hupoo/blog/item/098e5e8231759ba20df4d219.html一、什么是中文分词众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。例如,英文句子“I am a student”,用中文则为:“我是一个学生”。计算机可以很简单通过空格知道“student”是一个单转载 2007-01-24 20:53:00 · 1809 阅读 · 0 评论 -
分词:一种分词词库设计
原文地址:http://blog.donews.com/dgsheng/archive/2006/03/02/749512.aspx最近折腾毕业论文,搞得人没心情写blog了。于是觉得不如把毕业论文里的东西贴出来当blog算了。这里主要介绍了我自己的中文分词算法,我觉得它比现在开源代码比较多的中文匹配法要好多了。这里的内容没有任何背景知识啥的,毕竟论文里的背景知道我也是从网上粘贴的,呵呵!转载 2007-01-24 18:28:00 · 6955 阅读 · 1 评论 -
分词:提高分词准确性的考虑
中科院的ICTCLAS的分词流程为:一、分词 "张/华/平/欢迎/您"二、posTagging "张/q 华/j 平/j 欢迎/v 您/r"三、NE识别:人名识别,音译名识别,地名识别 "张/q 华/j 平/j 欢迎/v 您/r" "张华平/nr"四、重新分词:"张华平/欢迎/您"五、重新posTagging: "张华平/nr 欢迎/v 您/r"北航软件所BUAASEI原创 2007-01-25 17:11:00 · 2552 阅读 · 0 评论 -
Lucene:评分机制
使用Hits对象可以得到某个文档的得分。本文将对评分和Lucene的评分机制进行介绍。1 理解评分的概念评分其实是搜索引擎中很重要的一个概念。通常情况下,当用户输入一个关键字,搜索引擎接收到信息后即可开始进行检索。对于检索到的结果,需要按一定的顺序返回给用户。因此,需要引入一种机制来对检索结果进行排序,以便更加合理地将结果返回给用户。评分机制就是对检索结果按某种标准进行评估,然后按分转载 2007-01-27 00:19:00 · 2270 阅读 · 0 评论 -
万维网Web自动搜索引擎(技术报告)
万维网Web自动搜索引擎(技术报告)邓雄(Johnny Deng) 2006.12网络时代的信息量每8个月翻一番,如今的网页以100亿来计算;网络搜索已成为仅次于电子邮件的第二大网络应用。2005年中国互联网发展状况统计报告中也指出,用户在互联网上获取信息最常用的方法中,通过搜索引擎查找相关的网站占58.2%。对于有效的搜索引擎技术的研究将具有巨大的学术及商业价值。搜索引擎技术源自于信原创 2007-07-08 18:54:00 · 17033 阅读 · 0 评论 -
中国招聘网站2007春调研报告(from 搜索引擎项目)
中国招聘网站调研报告(by Johnny Deng)1. 调研背景及目的1.1 网上招聘的市场需求据发改委数据显示,2005年中国需要就业的人口为2500万人,而2005年可以安排的就业人口只有1100万人,全国就业岗位供给与岗位需求之间的缺口是1400万人。据教育部统计,2000年到2006年的毕业生人数分别为:107万、115万、145万、212万、280万、330万和413万原创 2007-07-08 17:47:00 · 3514 阅读 · 0 评论 -
几本机器人书籍下载
几本机器人书籍下载 1、Robotics : Designing the Mechanisms for Automated Machinery(初级难度) 出版信息及内容介绍转载 2007-05-17 04:27:00 · 4602 阅读 · 0 评论 -
Open Source Agent Systems Written In Java
Now heres a list with a more research oriented flavor. It turns out,ever since Java was released it has become the prefered platform forexploring intelligent agent technology. Surprisingly, man原创 2008-09-23 02:44:00 · 1406 阅读 · 0 评论 -
搜索引擎-语料库
语料库通常指为语言研究收集的、用电子形式保存的语言材料,由自然出现的书面语或口语的样本汇集而成,用来代表特定的语言或语言变体。经过科学选材和标注、具有适当规模的语料库能够反映和记录语言的实际使用情况。人们通过语料库观察和把握语言事实,分析和研究语言系统的规律。语料库已经成为语言学理论研究、应用研究和语言工程不可缺少的基础资源。语料库有多种类型,确定类型的主要依据是它的研究目的和用途,这一点往往能够转载 2007-01-19 22:05:00 · 1801 阅读 · 0 评论 -
lucene-Index
Lucene 是一个基于 Java 的全文检索工具包,你可以利用它来为你的应用程序加入索引和检索功能。Lucene 目前是著名的 Apache Jakarta 家族中的一个开源项目,下面我们即将学习 Lucene 的索引机制以及它的索引文件的结构。在这篇文章中,我们首先演示如何使用 Lucene 来索引文档,接着讨论如何提高索引的性能。最后我们来分析 Lucene 的索引文件结构。需要记住转载 2007-01-19 21:52:00 · 1002 阅读 · 0 评论 -
lucene搜索引擎技术的分析与整理
1. 引言1.1. 编写目的介绍开源软件搜索引擎——lucene的各个实现的功能,性能,以及代码分析1.2. 背景 分析的系统名称 Lucene转载 2006-12-23 07:42:00 · 2529 阅读 · 0 评论 -
Lucene研究
Lucene研究之一——起源、现状及初步应用 作者:陈光([email protected])时间:2004-08-23 本文是Lucene研究文集的首篇,主要介绍了Lucene的起源、发展、现状,以及Luence的初步应用,可以作为了解和学习Lucene的入门资料。 1. 起源与发展 Lucene是一个高性能、纯Java的全文检索引擎,而且免费、开源。Lucene几乎转载 2006-12-23 10:26:00 · 1951 阅读 · 0 评论 -
不同规则的中文分词对Lucene索引的影响
在中文全文索引中为了建立反向索引需要对文档中的句子进行切分,相关理论请参见车东的介绍。 在lucene 1.3 以后的版本中支持中文建立索引了,他默认的切分规则是按一个个汉字分的。例子见后。 这里主要对比以下3种中文切分对lucene 索引的影响。 第一种:默认的单字切分; 第二种:二元切分(见车东的文章); 第三种:按照词义切分(使用小叮咚的逆向最大切分法)。 上面3种切转载 2006-12-26 16:56:00 · 1126 阅读 · 0 评论 -
lucene索引建立的效率研究
Boosting特性luncene对Document和Field提供了一个可以设置的Boosting参数, 这个参数的用处是告诉lucene, 某些记录更重要,在搜索的时候优先考虑他们 比如在搜索的时候你可能觉得几个门户的网页要比垃圾小站更优先考虑 lucene默认的boosting参数是1.0, 如果你觉得这个field重要,你可以把boosting设置为1.5, 1.2….等,转载 2006-12-26 17:01:00 · 1847 阅读 · 1 评论 -
Lucene:Index的空间和时间实验
硬件:IBM X365数据库:MySQL,7个域(1个int,4个string,2个MediumText)+-------------+------------------+------+-----+---------+----------------+| Field | Type | Null | Key | Default | Extra原创 2007-02-09 00:34:00 · 1070 阅读 · 0 评论 -
Lucene-Analysis包分析
Lucene于搜索引擎技术(Analysis包详解)Lucene于搜索引擎技术(Analysis包详解) Lucene与搜索引擎技术 TjuAILab windshow 2005.11.11 Analysis包分析 算法和数据结构分析: 由于Analysis包比较简单,不详述了! 算法:基于机械分词 1-gram,2-gram,HMM(如果使用ICTCL转载 2007-01-19 21:45:00 · 1082 阅读 · 0 评论 -
分词:词性标注北大标准
汉语词性对照表[北大标准/中科院标准] 词性编码 词性名称 注 解 Ag 形原创 2007-01-19 22:20:00 · 5321 阅读 · 0 评论 -
Lucene-高级搜索
Overview Although Lucene provides the ability to create your own queries through its API, it also provides a rich query la原创 2007-01-19 21:49:00 · 1322 阅读 · 0 评论 -
分词:分词词典CIPP_JS
CIPP_JS中文自动分词词典共享CIPP_JS中文自动分词用词典,格式是词条 词性 词频,词性标注集是采用北京大学计算所的标注集,总词条149922条,参考了中科院计算所 北京大学计算所 北京工业大学等单位的中文自动分词词典信息,经北京大学标注的98年1~6月的人民日报获取词频数据而成.辞典内容示例: 啊 e 20啊 y 378啊啊 e 1啊啊 o 1啊呀 e 0啊哟 e原创 2007-01-19 22:18:00 · 3175 阅读 · 4 评论 -
词性标注(1)
转载 2007-01-19 20:49:00 · 783 阅读 · 0 评论 -
用Python写Map Reduce程序
Writing An Hadoop MapReduce Program In Pythonby Michael G. Noll on September 21, 2007 (last updated: July 18, 2011)From:http://www.m转载 2011-08-14 15:18:59 · 3877 阅读 · 0 评论