<rss version="2.0" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:trackback="http://madskills.com/public/xml/rss/module/trackback/" xmlns:wfw="http://wellformedweb.org/CommentAPI/" xmlns:slash="http://purl.org/rss/1.0/modules/slash/"><channel><title>呼唤新一代世界级水准的情报学学术领袖！ - 搜索引擎</title><link>http://blog.csdn.net/ministonenap/category/255819.aspx</link><description /><dc:language>zh-CN</dc:language><lastUpdateTime>Tue, 25 Mar 2008 16:55:39 GMT</lastUpdateTime><ttl>60</ttl><item><dc:creator>Ministone</dc:creator><title>常用搜索引擎列表</title><link>http://blog.csdn.net/ministonenap/archive/2006/11/27/1417343.aspx</link><pubDate>Mon, 27 Nov 2006 19:27:00 GMT</pubDate><guid>http://blog.csdn.net/ministonenap/archive/2006/11/27/1417343.aspx</guid><wfw:comment>http://blog.csdn.net/ministonenap/comments/1417343.aspx</wfw:comment><comments>http://blog.csdn.net/ministonenap/archive/2006/11/27/1417343.aspx#Feedback</comments><slash:comments>1</slash:comments><wfw:commentRss>http://blog.csdn.net/ministonenap/comments/commentRss/1417343.aspx</wfw:commentRss><trackback:ping>http://tb.blog.csdn.net/TrackBack.aspx?PostId=1417343</trackback:ping><description>常用搜索引擎列表&lt;img src ="http://blog.csdn.net/ministonenap/aggbug/1417343.aspx" width = "1" height = "1" /&gt;</description></item><item><dc:creator>Ministone</dc:creator><title>SegWord 的进展--词库结构</title><link>http://blog.csdn.net/ministonenap/archive/2006/11/25/1414127.aspx</link><pubDate>Sat, 25 Nov 2006 18:58:00 GMT</pubDate><guid>http://blog.csdn.net/ministonenap/archive/2006/11/25/1414127.aspx</guid><wfw:comment>http://blog.csdn.net/ministonenap/comments/1414127.aspx</wfw:comment><comments>http://blog.csdn.net/ministonenap/archive/2006/11/25/1414127.aspx#Feedback</comments><slash:comments>0</slash:comments><wfw:commentRss>http://blog.csdn.net/ministonenap/comments/commentRss/1414127.aspx</wfw:commentRss><trackback:ping>http://tb.blog.csdn.net/TrackBack.aspx?PostId=1414127</trackback:ping><description>目前对于词库结构的建立,一种普遍的倾向是使用trie结构,该结构使得对词库中词语的访问速度和词库规模无关(若词语的长度为n,则查询该词语的复杂度为O(­n);和词库规模m无关).而且,若双向建立,则机械分词的正向和逆向最大匹配都是极容易实现而且复杂度较低的. 
&lt;img src ="http://blog.csdn.net/ministonenap/aggbug/1414127.aspx" width = "1" height = "1" /&gt;</description></item><item><dc:creator>Ministone</dc:creator><title>编写简单的中文分词程序 </title><link>http://blog.csdn.net/ministonenap/archive/2006/11/23/1409134.aspx</link><pubDate>Thu, 23 Nov 2006 18:57:00 GMT</pubDate><guid>http://blog.csdn.net/ministonenap/archive/2006/11/23/1409134.aspx</guid><wfw:comment>http://blog.csdn.net/ministonenap/comments/1409134.aspx</wfw:comment><comments>http://blog.csdn.net/ministonenap/archive/2006/11/23/1409134.aspx#Feedback</comments><slash:comments>0</slash:comments><wfw:commentRss>http://blog.csdn.net/ministonenap/comments/commentRss/1409134.aspx</wfw:commentRss><trackback:ping>http://tb.blog.csdn.net/TrackBack.aspx?PostId=1409134</trackback:ping><description>选择什么样的数据结构对性能影响很大.我采用Hashtable _rootTable记录词库.键值对为(键,插入次数).对每一个词语,如果该词语有N个字,则将该词语的1,1~2,1~3,......1~N个字作为键,插入_rootTable中.而同一个键如果重复插入,则后面的值递增.&lt;img src ="http://blog.csdn.net/ministonenap/aggbug/1409134.aspx" width = "1" height = "1" /&gt;</description></item><item><dc:creator>Ministone</dc:creator><title>中文分词技术</title><link>http://blog.csdn.net/ministonenap/archive/2006/11/23/1409113.aspx</link><pubDate>Thu, 23 Nov 2006 18:35:00 GMT</pubDate><guid>http://blog.csdn.net/ministonenap/archive/2006/11/23/1409113.aspx</guid><wfw:comment>http://blog.csdn.net/ministonenap/comments/1409113.aspx</wfw:comment><comments>http://blog.csdn.net/ministonenap/archive/2006/11/23/1409113.aspx#Feedback</comments><slash:comments>0</slash:comments><wfw:commentRss>http://blog.csdn.net/ministonenap/comments/commentRss/1409113.aspx</wfw:commentRss><trackback:ping>http://tb.blog.csdn.net/TrackBack.aspx?PostId=1409113</trackback:ping><description>我们讨论的分词算法可分为三大类：基于字典、词库匹配的分词方法；基于词频度统计的分词方法和基于知识理解的分词方法。&lt;img src ="http://blog.csdn.net/ministonenap/aggbug/1409113.aspx" width = "1" height = "1" /&gt;</description></item><item><dc:creator>Ministone</dc:creator><title>中文搜索引擎技术揭密：系统架构 </title><link>http://blog.csdn.net/ministonenap/archive/2006/11/23/1408761.aspx</link><pubDate>Thu, 23 Nov 2006 15:38:00 GMT</pubDate><guid>http://blog.csdn.net/ministonenap/archive/2006/11/23/1408761.aspx</guid><wfw:comment>http://blog.csdn.net/ministonenap/comments/1408761.aspx</wfw:comment><comments>http://blog.csdn.net/ministonenap/archive/2006/11/23/1408761.aspx#Feedback</comments><slash:comments>0</slash:comments><wfw:commentRss>http://blog.csdn.net/ministonenap/comments/commentRss/1408761.aspx</wfw:commentRss><trackback:ping>http://tb.blog.csdn.net/TrackBack.aspx?PostId=1408761</trackback:ping><description>随着搜索引擎市场空间越来越大，搜索引擎也分得越来越细。互联网没有国界，百度总裁李彦宏所讲：搜索引擎市场是赢家通吃的市场。如果一个搜索引擎要想在搜 索市场上有自己的一席之地，必须拥有自己的特色。而且，数以亿计的网民，搜索需求不可能都一样，不同类型的用户需要不同类型的搜索引擎，网页搜索只是搜索 需求中的一种，这就决定了搜索引擎会不断细化，各具特色的搜索引擎也陆续出现。 &lt;img src ="http://blog.csdn.net/ministonenap/aggbug/1408761.aspx" width = "1" height = "1" /&gt;</description></item><item><dc:creator>Ministone</dc:creator><title>中文搜索引擎技术揭密：网络蜘蛛</title><link>http://blog.csdn.net/ministonenap/archive/2006/11/23/1408741.aspx</link><pubDate>Thu, 23 Nov 2006 15:29:00 GMT</pubDate><guid>http://blog.csdn.net/ministonenap/archive/2006/11/23/1408741.aspx</guid><wfw:comment>http://blog.csdn.net/ministonenap/comments/1408741.aspx</wfw:comment><comments>http://blog.csdn.net/ministonenap/archive/2006/11/23/1408741.aspx#Feedback</comments><slash:comments>0</slash:comments><wfw:commentRss>http://blog.csdn.net/ministonenap/comments/commentRss/1408741.aspx</wfw:commentRss><trackback:ping>http://tb.blog.csdn.net/TrackBack.aspx?PostId=1408741</trackback:ping><description>网络蜘蛛在搜索引擎中占有重要位置，对搜索引擎的查全、查准都有影响，决定了搜索引擎数据容量的大小，而且网络蜘蛛的好坏直接影响搜索结果页中的死链接 （即链接所指向的网页已经不存在）的个数。目前如何发现更多的网页、如何正确提取网页内容、如果下载动态网页、如何提供抓取速度、如何识别网站内内容相同 的网页等都是网络蜘蛛需要进一步改进的问题。 

&lt;img src ="http://blog.csdn.net/ministonenap/aggbug/1408741.aspx" width = "1" height = "1" /&gt;</description></item><item><dc:creator>Ministone</dc:creator><title>中文搜索引擎技术揭密：排序技术 </title><link>http://blog.csdn.net/ministonenap/archive/2006/11/23/1408730.aspx</link><pubDate>Thu, 23 Nov 2006 15:24:00 GMT</pubDate><guid>http://blog.csdn.net/ministonenap/archive/2006/11/23/1408730.aspx</guid><wfw:comment>http://blog.csdn.net/ministonenap/comments/1408730.aspx</wfw:comment><comments>http://blog.csdn.net/ministonenap/archive/2006/11/23/1408730.aspx#Feedback</comments><slash:comments>0</slash:comments><wfw:commentRss>http://blog.csdn.net/ministonenap/comments/commentRss/1408730.aspx</wfw:commentRss><trackback:ping>http://tb.blog.csdn.net/TrackBack.aspx?PostId=1408730</trackback:ping><description>随着市场容量和使用者人数的不断激增，如何完善搜索功能使之更加公平、公开、标准和人性化也就随之成为了一个备受关注的话题。但是有一个矛盾体在这其中不 断的显现出来：收费可以为搜索引擎公司带来利润，但同时会降低访问者的体验满意度。如何权衡金钱和用户需求之间的天平呢？ &lt;img src ="http://blog.csdn.net/ministonenap/aggbug/1408730.aspx" width = "1" height = "1" /&gt;</description></item><item><dc:creator>Ministone</dc:creator><title>规范之细部内容</title><link>http://blog.csdn.net/ministonenap/archive/2006/11/23/1408703.aspx</link><pubDate>Thu, 23 Nov 2006 15:15:00 GMT</pubDate><guid>http://blog.csdn.net/ministonenap/archive/2006/11/23/1408703.aspx</guid><wfw:comment>http://blog.csdn.net/ministonenap/comments/1408703.aspx</wfw:comment><comments>http://blog.csdn.net/ministonenap/archive/2006/11/23/1408703.aspx#Feedback</comments><slash:comments>0</slash:comments><wfw:commentRss>http://blog.csdn.net/ministonenap/comments/commentRss/1408703.aspx</wfw:commentRss><trackback:ping>http://tb.blog.csdn.net/TrackBack.aspx?PostId=1408703</trackback:ping><description>虽然目前不能达到尽善尽美的地步,但是分词规范描绘出整个架构,而且已在词库小组的语料库建立担负起分词的主要依据.在草创时期,已有二百万的平衡语料是在分词标准的大原则下作切分(词库小组 1995),接著有七十万目词语料库是完全依据分词草案进行切分,达到达级的分合标准(词库小组 1996).目前又陆续完成了八十万目词的语料切分.我们希望各界也能够参考制定的分词规范,把实际工作的成效反应给我们.相信在大家的努力下,能够形成带动中文资讯发展的另一股动力. 
&lt;img src ="http://blog.csdn.net/ministonenap/aggbug/1408703.aspx" width = "1" height = "1" /&gt;</description></item><item><dc:creator>Ministone</dc:creator><title>「资讯处理用中文分词规范」设计理念及规范内容 </title><link>http://blog.csdn.net/ministonenap/archive/2006/11/23/1408508.aspx</link><pubDate>Thu, 23 Nov 2006 15:10:00 GMT</pubDate><guid>http://blog.csdn.net/ministonenap/archive/2006/11/23/1408508.aspx</guid><wfw:comment>http://blog.csdn.net/ministonenap/comments/1408508.aspx</wfw:comment><comments>http://blog.csdn.net/ministonenap/archive/2006/11/23/1408508.aspx#Feedback</comments><slash:comments>0</slash:comments><wfw:commentRss>http://blog.csdn.net/ministonenap/comments/commentRss/1408508.aspx</wfw:commentRss><trackback:ping>http://tb.blog.csdn.net/TrackBack.aspx?PostId=1408508</trackback:ping><description>资讯处理用中文分词规范的基本架构分成三部份 – 分词单位的定义,分词的基本原则和辅助原则,分词规范的层次划分. 
&lt;img src ="http://blog.csdn.net/ministonenap/aggbug/1408508.aspx" width = "1" height = "1" /&gt;</description></item><item><dc:creator>Ministone</dc:creator><title>中文搜索引擎技术揭密：中文分词 </title><link>http://blog.csdn.net/ministonenap/archive/2006/11/23/1408450.aspx</link><pubDate>Thu, 23 Nov 2006 14:56:00 GMT</pubDate><guid>http://blog.csdn.net/ministonenap/archive/2006/11/23/1408450.aspx</guid><wfw:comment>http://blog.csdn.net/ministonenap/comments/1408450.aspx</wfw:comment><comments>http://blog.csdn.net/ministonenap/archive/2006/11/23/1408450.aspx#Feedback</comments><slash:comments>0</slash:comments><wfw:commentRss>http://blog.csdn.net/ministonenap/comments/commentRss/1408450.aspx</wfw:commentRss><trackback:ping>http://tb.blog.csdn.net/TrackBack.aspx?PostId=1408450</trackback:ping><description>目前在中文搜索引擎领域，国内的搜索引擎已经和国外的搜索引擎效果上相差不远。之所以能形成这样的局面，有一个重要的原因就在于中文和英文两种语言自身的书写方式不同，这其中对于计算机涉及的技术就是中文分词。 
&lt;img src ="http://blog.csdn.net/ministonenap/aggbug/1408450.aspx" width = "1" height = "1" /&gt;</description></item><item><dc:creator>Ministone</dc:creator><title>中文分词和搜索引擎</title><link>http://blog.csdn.net/ministonenap/archive/2006/11/23/1408431.aspx</link><pubDate>Thu, 23 Nov 2006 14:46:00 GMT</pubDate><guid>http://blog.csdn.net/ministonenap/archive/2006/11/23/1408431.aspx</guid><wfw:comment>http://blog.csdn.net/ministonenap/comments/1408431.aspx</wfw:comment><comments>http://blog.csdn.net/ministonenap/archive/2006/11/23/1408431.aspx#Feedback</comments><slash:comments>0</slash:comments><wfw:commentRss>http://blog.csdn.net/ministonenap/comments/commentRss/1408431.aspx</wfw:commentRss><trackback:ping>http://tb.blog.csdn.net/TrackBack.aspx?PostId=1408431</trackback:ping><description>如何识别新词成为最近几年分词技术研究的重点。总结起来，无非分成两种：
1. 基于规则的方法。 
2. 基于统计、机器学习。

&lt;img src ="http://blog.csdn.net/ministonenap/aggbug/1408431.aspx" width = "1" height = "1" /&gt;</description></item><item><dc:creator>Ministone</dc:creator><title>初识lucene（2）</title><link>http://blog.csdn.net/ministonenap/archive/2006/11/18/1394505.aspx</link><pubDate>Sat, 18 Nov 2006 17:14:00 GMT</pubDate><guid>http://blog.csdn.net/ministonenap/archive/2006/11/18/1394505.aspx</guid><wfw:comment>http://blog.csdn.net/ministonenap/comments/1394505.aspx</wfw:comment><comments>http://blog.csdn.net/ministonenap/archive/2006/11/18/1394505.aspx#Feedback</comments><slash:comments>0</slash:comments><wfw:commentRss>http://blog.csdn.net/ministonenap/comments/commentRss/1394505.aspx</wfw:commentRss><trackback:ping>http://tb.blog.csdn.net/TrackBack.aspx?PostId=1394505</trackback:ping><description>不足：
    查询精确度不好。
    没有体现网页的重要性。
    Lucene的得分算法, 不适合网页搜索。

&lt;img src ="http://blog.csdn.net/ministonenap/aggbug/1394505.aspx" width = "1" height = "1" /&gt;</description></item><item><dc:creator>MinistoneNap</dc:creator><title>初识lucene(1)</title><link>http://blog.csdn.net/ministonenap/archive/2006/11/17/1392475.aspx</link><pubDate>Fri, 17 Nov 2006 14:55:00 GMT</pubDate><guid>http://blog.csdn.net/ministonenap/archive/2006/11/17/1392475.aspx</guid><wfw:comment>http://blog.csdn.net/ministonenap/comments/1392475.aspx</wfw:comment><comments>http://blog.csdn.net/ministonenap/archive/2006/11/17/1392475.aspx#Feedback</comments><slash:comments>2</slash:comments><wfw:commentRss>http://blog.csdn.net/ministonenap/comments/commentRss/1392475.aspx</wfw:commentRss><trackback:ping>http://tb.blog.csdn.net/TrackBack.aspx?PostId=1392475</trackback:ping><description>lucene的下载和测试&lt;img src ="http://blog.csdn.net/ministonenap/aggbug/1392475.aspx" width = "1" height = "1" /&gt;</description></item></channel></rss>