<rss version="2.0" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:trackback="http://madskills.com/public/xml/rss/module/trackback/" xmlns:wfw="http://wellformedweb.org/CommentAPI/" xmlns:slash="http://purl.org/rss/1.0/modules/slash/"><channel><title>chengg0769 - 信息检索</title><link>http://blog.csdn.net/chengg0769/category/320543.aspx</link><description>信息检索</description><dc:language>zh-CN</dc:language><lastUpdateTime>Thu, 24 Jan 2008 06:06:40 GMT</lastUpdateTime><ttl>60</ttl><item><dc:creator>chengg0769</dc:creator><title>推荐站点:中文自然语言处理开放平台</title><link>http://blog.csdn.net/chengg0769/archive/2007/11/13/1882702.aspx</link><pubDate>Tue, 13 Nov 2007 19:25:00 GMT</pubDate><guid>http://blog.csdn.net/chengg0769/archive/2007/11/13/1882702.aspx</guid><wfw:comment>http://blog.csdn.net/chengg0769/comments/1882702.aspx</wfw:comment><comments>http://blog.csdn.net/chengg0769/archive/2007/11/13/1882702.aspx#Feedback</comments><slash:comments>0</slash:comments><wfw:commentRss>http://blog.csdn.net/chengg0769/comments/commentRss/1882702.aspx</wfw:commentRss><trackback:ping>http://tb.blog.csdn.net/TrackBack.aspx?PostId=1882702</trackback:ping><description>中文自然语言处理开放平台-网址&lt;img src ="http://blog.csdn.net/chengg0769/aggbug/1882702.aspx" width = "1" height = "1" /&gt;</description></item><item><dc:creator>chengg0769</dc:creator><title>Lucene(Nutch)距离商业文本搜索引擎还有多远？(转载)</title><link>http://blog.csdn.net/chengg0769/archive/2007/09/02/1768937.aspx</link><pubDate>Sun, 02 Sep 2007 08:45:00 GMT</pubDate><guid>http://blog.csdn.net/chengg0769/archive/2007/09/02/1768937.aspx</guid><wfw:comment>http://blog.csdn.net/chengg0769/comments/1768937.aspx</wfw:comment><comments>http://blog.csdn.net/chengg0769/archive/2007/09/02/1768937.aspx#Feedback</comments><slash:comments>0</slash:comments><wfw:commentRss>http://blog.csdn.net/chengg0769/comments/commentRss/1768937.aspx</wfw:commentRss><trackback:ping>http://tb.blog.csdn.net/TrackBack.aspx?PostId=1768937</trackback:ping><description>最新一次更新的时候，我再次研究了一下Lucene，读完了Lucene In Action，并且实际的使用Lucene构建了一个小型的搜索系统之后，我感觉到很惭愧，因为我一直对Lucene有不满的心理，认为它做的不好（可能受了国内的某些使用Lucene构建搜索引擎的网站的影响，因为他们构建的都很差，现在想来，可能是他们和我一样没有真正深入理解Lucene）。现在我才发现，Lucene的作者在大方向上考虑问题的全面比我要好很多（虽然有些功能我不知道是否真的有用）。&lt;img src ="http://blog.csdn.net/chengg0769/aggbug/1768937.aspx" width = "1" height = "1" /&gt;</description></item><item><dc:creator>chengg0769</dc:creator><title>推荐站点：今天在看我的文章被转载情况，偶然得到该站，不错--人工智能，数据挖掘，数据库(可能是人工收录)</title><link>http://blog.csdn.net/chengg0769/archive/2007/08/16/1745852.aspx</link><pubDate>Thu, 16 Aug 2007 02:21:00 GMT</pubDate><guid>http://blog.csdn.net/chengg0769/archive/2007/08/16/1745852.aspx</guid><wfw:comment>http://blog.csdn.net/chengg0769/comments/1745852.aspx</wfw:comment><comments>http://blog.csdn.net/chengg0769/archive/2007/08/16/1745852.aspx#Feedback</comments><slash:comments>0</slash:comments><wfw:commentRss>http://blog.csdn.net/chengg0769/comments/commentRss/1745852.aspx</wfw:commentRss><trackback:ping>http://tb.blog.csdn.net/TrackBack.aspx?PostId=1745852</trackback:ping><description>推荐站点：今天在看我的文章被转载情况，偶然得到该站，不错--人工智能，数据挖掘，数据库(可能是人工收录)&lt;img src ="http://blog.csdn.net/chengg0769/aggbug/1745852.aspx" width = "1" height = "1" /&gt;</description></item><item><dc:creator>chengg0769</dc:creator><title>推荐一个数据挖掘讨论组：沿着里面的文章你能找到更多的知识点</title><link>http://blog.csdn.net/chengg0769/archive/2007/08/14/1741835.aspx</link><pubDate>Tue, 14 Aug 2007 00:08:00 GMT</pubDate><guid>http://blog.csdn.net/chengg0769/archive/2007/08/14/1741835.aspx</guid><wfw:comment>http://blog.csdn.net/chengg0769/comments/1741835.aspx</wfw:comment><comments>http://blog.csdn.net/chengg0769/archive/2007/08/14/1741835.aspx#Feedback</comments><slash:comments>0</slash:comments><wfw:commentRss>http://blog.csdn.net/chengg0769/comments/commentRss/1741835.aspx</wfw:commentRss><trackback:ping>http://tb.blog.csdn.net/TrackBack.aspx?PostId=1741835</trackback:ping><description>数据挖掘综述   数据挖掘方法论   数据挖掘技术和算法    数据挖掘的一个完整过程   数据挖掘计划的例子 
&lt;img src ="http://blog.csdn.net/chengg0769/aggbug/1741835.aspx" width = "1" height = "1" /&gt;</description></item><item><dc:creator>chengg0769</dc:creator><title>商业情报将是未来突显互联网网页挖掘和网页类聚的价值的方向(转载)</title><link>http://blog.csdn.net/chengg0769/archive/2007/08/09/1733640.aspx</link><pubDate>Thu, 09 Aug 2007 14:12:00 GMT</pubDate><guid>http://blog.csdn.net/chengg0769/archive/2007/08/09/1733640.aspx</guid><wfw:comment>http://blog.csdn.net/chengg0769/comments/1733640.aspx</wfw:comment><comments>http://blog.csdn.net/chengg0769/archive/2007/08/09/1733640.aspx#Feedback</comments><slash:comments>0</slash:comments><wfw:commentRss>http://blog.csdn.net/chengg0769/comments/commentRss/1733640.aspx</wfw:commentRss><trackback:ping>http://tb.blog.csdn.net/TrackBack.aspx?PostId=1733640</trackback:ping><description>在美国的酒类管理体制中，酒基本上被分成了啤酒、葡萄酒和烈酒三类，而且每种酒的进口或批发都需要专门的许可证或执照。这就给我们带来了很大的麻烦，因为无法确定某一家公司到底是经营葡萄酒还是Vodka，到底是进口商还是批发商，在YellowPage中查询到的最小分类是酒(Liquor)，而没有更细的分类。当我们找到美国加州酒类管理中心的网站(www.abc.ca.gov)时，这些问题都迎刃而解了。这里不仅按酒的类别、字母的顺序、不同的地域对每个公司进行了分类，而且对于每个公司的信息都有详尽的记录，包括：公司名称、申请人姓名、地址、许可证的种类、许可证的使用期限、经营历史、电话号码等等，真是一个信息宝库。&lt;img src ="http://blog.csdn.net/chengg0769/aggbug/1733640.aspx" width = "1" height = "1" /&gt;</description></item><item><dc:creator>chengg0769</dc:creator><title>知识检索的两种方式(超级有意思：通用搜索引擎[初筛-发现]和垂直搜索引擎[单一层面]+定向搜索[精准])</title><link>http://blog.csdn.net/chengg0769/archive/2007/08/03/1725505.aspx</link><pubDate>Fri, 03 Aug 2007 22:34:00 GMT</pubDate><guid>http://blog.csdn.net/chengg0769/archive/2007/08/03/1725505.aspx</guid><wfw:comment>http://blog.csdn.net/chengg0769/comments/1725505.aspx</wfw:comment><comments>http://blog.csdn.net/chengg0769/archive/2007/08/03/1725505.aspx#Feedback</comments><slash:comments>0</slash:comments><wfw:commentRss>http://blog.csdn.net/chengg0769/comments/commentRss/1725505.aspx</wfw:commentRss><trackback:ping>http://tb.blog.csdn.net/TrackBack.aspx?PostId=1725505</trackback:ping><description>//转载评论：我想未来搜索引擎中，平面搜索主要满足生活热点和普通搜索，而垂直搜索作某个行业，某些层面(不同的剖面都可以叫垂直),还得加上专用搜索(或者叫精准搜索)，在我构想得概念里，可能应该有种叫：中国出版物和文献专业检索数据库 这样的搜索才适合专业人士，学者专家使用。
//关于keyword.在好的分词技术，新词发现技术，也是基于统计学的。比如说1000篇文章里同时出现了一个重复出现的文字块，这个文字小块可能就是派生词。比如"地球人都知道"这句广告词,这就是实例。如果很专业，特别是有些根本还未为大家接受，或者说还在论文阶段的词，可能无法收录，也会造成无法收录。比如”长尾“，在这个理论未发布前，这就不是一个词。搜索引擎也是在这个词(或字块)出现后的一段时间，通过统计分析发现这个可能的新词的。然后可能是经过人工再确认，才会参与切词的。大家才能搜索得到。&lt;img src ="http://blog.csdn.net/chengg0769/aggbug/1725505.aspx" width = "1" height = "1" /&gt;</description></item><item><dc:creator>chengg0769</dc:creator><title>Thomas和Kellysearch这两大工业分类目录的最大差异是网站优化(作者：胡宝介)</title><link>http://blog.csdn.net/chengg0769/archive/2007/07/27/1712772.aspx</link><pubDate>Fri, 27 Jul 2007 22:55:00 GMT</pubDate><guid>http://blog.csdn.net/chengg0769/archive/2007/07/27/1712772.aspx</guid><wfw:comment>http://blog.csdn.net/chengg0769/comments/1712772.aspx</wfw:comment><comments>http://blog.csdn.net/chengg0769/archive/2007/07/27/1712772.aspx#Feedback</comments><slash:comments>0</slash:comments><wfw:commentRss>http://blog.csdn.net/chengg0769/comments/commentRss/1712772.aspx</wfw:commentRss><trackback:ping>http://tb.blog.csdn.net/TrackBack.aspx?PostId=1712772</trackback:ping><description>排除网站上线年限的原因，跟Thomasglobal网站优化不如Kellysearch有关。kellysearch从一级分类目录页面到企业介绍信息页面全部做html静态化处理，而thomasglobal还是asp动态网页，直接结果是kellysearch的内容页面即最里层的公司介绍页面都获得google收录，而Thomas在深入到公司介绍页面就难以获得google收录。&lt;img src ="http://blog.csdn.net/chengg0769/aggbug/1712772.aspx" width = "1" height = "1" /&gt;</description></item><item><dc:creator>chengg0769</dc:creator><title>电子商务平台:ThomasNet与Kellysearch</title><link>http://blog.csdn.net/chengg0769/archive/2007/07/27/1712439.aspx</link><pubDate>Fri, 27 Jul 2007 22:08:00 GMT</pubDate><guid>http://blog.csdn.net/chengg0769/archive/2007/07/27/1712439.aspx</guid><wfw:comment>http://blog.csdn.net/chengg0769/comments/1712439.aspx</wfw:comment><comments>http://blog.csdn.net/chengg0769/archive/2007/07/27/1712439.aspx#Feedback</comments><slash:comments>0</slash:comments><wfw:commentRss>http://blog.csdn.net/chengg0769/comments/commentRss/1712439.aspx</wfw:commentRss><trackback:ping>http://tb.blog.csdn.net/TrackBack.aspx?PostId=1712439</trackback:ping><description>ThomasNet是立足北美、汇聚全球供应商和采购商企业信息及产品信息的B2B电子商务平台。ThomasNet为企业提供的主要广告机会包括：固定价格的目录广告和行业新闻广告。目录广告可以提升产品在行业目录中的曝光率。要进一步提高广告可见度，还可以购买排名积分，购买越多排名积分，广告排名越高。
&lt;img src ="http://blog.csdn.net/chengg0769/aggbug/1712439.aspx" width = "1" height = "1" /&gt;</description></item><item><dc:creator>chengg0769</dc:creator><title>搜索引擎成为工业品采购商寻找货源的第一渠道(转载自网上)</title><link>http://blog.csdn.net/chengg0769/archive/2007/07/27/1712081.aspx</link><pubDate>Fri, 27 Jul 2007 21:05:00 GMT</pubDate><guid>http://blog.csdn.net/chengg0769/archive/2007/07/27/1712081.aspx</guid><wfw:comment>http://blog.csdn.net/chengg0769/comments/1712081.aspx</wfw:comment><comments>http://blog.csdn.net/chengg0769/archive/2007/07/27/1712081.aspx#Feedback</comments><slash:comments>0</slash:comments><wfw:commentRss>http://blog.csdn.net/chengg0769/comments/commentRss/1712081.aspx</wfw:commentRss><trackback:ping>http://tb.blog.csdn.net/TrackBack.aspx?PostId=1712081</trackback:ping><description>根据GlobalSpec的调查分析，以前采购商物色新的供应商的方式是通过展会、销售电话和印刷目录，这些传统方式目前正在被网络搜索替代。搜索引擎成为工业品采购商寻找新供货商的第一渠道，其次是在线行业在线分类目录，二者加起来占据采购渠道的73%，印刷目录的作用已经降到最低。&lt;img src ="http://blog.csdn.net/chengg0769/aggbug/1712081.aspx" width = "1" height = "1" /&gt;</description></item><item><dc:creator>chengg0769</dc:creator><title>搜索引擎检索效率与垃圾信息(张炜)</title><link>http://blog.csdn.net/chengg0769/archive/2007/07/27/1711057.aspx</link><pubDate>Fri, 27 Jul 2007 10:28:00 GMT</pubDate><guid>http://blog.csdn.net/chengg0769/archive/2007/07/27/1711057.aspx</guid><wfw:comment>http://blog.csdn.net/chengg0769/comments/1711057.aspx</wfw:comment><comments>http://blog.csdn.net/chengg0769/archive/2007/07/27/1711057.aspx#Feedback</comments><slash:comments>0</slash:comments><wfw:commentRss>http://blog.csdn.net/chengg0769/comments/commentRss/1711057.aspx</wfw:commentRss><trackback:ping>http://tb.blog.csdn.net/TrackBack.aspx?PostId=1711057</trackback:ping><description>对于用户来说，在使用搜索引擎的时候，搜到垃圾信息是一件非常头疼的事，即浪费了时间，更影响了正确信息的获取。具体的说垃圾信息是什么呢？
不同搜索引擎对垃圾邮件的定义也有一定差别，例如Google在举报的垃圾信息的表单中列出了下列几项内容&lt;img src ="http://blog.csdn.net/chengg0769/aggbug/1711057.aspx" width = "1" height = "1" /&gt;</description></item><item><dc:creator>chengg0769</dc:creator><title>想开发搜索的人必读的文章(www.lucene.com.cn)</title><link>http://blog.csdn.net/chengg0769/archive/2007/07/27/1710979.aspx</link><pubDate>Fri, 27 Jul 2007 09:56:00 GMT</pubDate><guid>http://blog.csdn.net/chengg0769/archive/2007/07/27/1710979.aspx</guid><wfw:comment>http://blog.csdn.net/chengg0769/comments/1710979.aspx</wfw:comment><comments>http://blog.csdn.net/chengg0769/archive/2007/07/27/1710979.aspx#Feedback</comments><slash:comments>0</slash:comments><wfw:commentRss>http://blog.csdn.net/chengg0769/comments/commentRss/1710979.aspx</wfw:commentRss><trackback:ping>http://tb.blog.csdn.net/TrackBack.aspx?PostId=1710979</trackback:ping><description>共五个方面的总结
这部分讨论几种特色搜索，概念检索是以概念为核心，这种方式一改以关键词核心的搜索模式，借助概念词典，通过与用户交互而获得用户要搜索的目的核心的一种搜索方式。提问式检索是以自然语言形式的问答式检索。引导式分类检索和聚类检索是对结果显示方式的重新布置方法，使方便用户的一种搜索方式。个性化搜索是利用个性化提取技术对不同的用户获得不同的结果的一种方法。&lt;img src ="http://blog.csdn.net/chengg0769/aggbug/1710979.aspx" width = "1" height = "1" /&gt;</description></item><item><dc:creator>chengg0769</dc:creator><title>一堆信息抽取的资料文档(转载自:fullsearch.com)</title><link>http://blog.csdn.net/chengg0769/archive/2007/07/27/1710939.aspx</link><pubDate>Fri, 27 Jul 2007 09:43:00 GMT</pubDate><guid>http://blog.csdn.net/chengg0769/archive/2007/07/27/1710939.aspx</guid><wfw:comment>http://blog.csdn.net/chengg0769/comments/1710939.aspx</wfw:comment><comments>http://blog.csdn.net/chengg0769/archive/2007/07/27/1710939.aspx#Feedback</comments><slash:comments>0</slash:comments><wfw:commentRss>http://blog.csdn.net/chengg0769/comments/commentRss/1710939.aspx</wfw:commentRss><trackback:ping>http://tb.blog.csdn.net/TrackBack.aspx?PostId=1710939</trackback:ping><description>信息抽取（Information Extraction: IE）是把文本里包含的信息进行结构化处理，变成表格一样的组织形式。输入信息抽取系统的是原始文本，输出的是固定格式的信息点。信息点从各种各样的文档中被抽取出来，然后以统一的形式集成在一起。这就是信息抽取的主要任务………&lt;img src ="http://blog.csdn.net/chengg0769/aggbug/1710939.aspx" width = "1" height = "1" /&gt;</description></item><item><dc:creator>chengg0769</dc:creator><title>文本过滤(智能信息处理重点实验室)</title><link>http://blog.csdn.net/chengg0769/archive/2007/07/26/1710032.aspx</link><pubDate>Thu, 26 Jul 2007 20:05:00 GMT</pubDate><guid>http://blog.csdn.net/chengg0769/archive/2007/07/26/1710032.aspx</guid><wfw:comment>http://blog.csdn.net/chengg0769/comments/1710032.aspx</wfw:comment><comments>http://blog.csdn.net/chengg0769/archive/2007/07/26/1710032.aspx#Feedback</comments><slash:comments>0</slash:comments><wfw:commentRss>http://blog.csdn.net/chengg0769/comments/commentRss/1710032.aspx</wfw:commentRss><trackback:ping>http://tb.blog.csdn.net/TrackBack.aspx?PostId=1710032</trackback:ping><description>虽然文本过滤和文本检索几乎是一样重要，但比起文本检索，文本过滤开展得较晚，研究得也相对较少。究其原因，是因为文本过滤要求有一个大规模的、真实而又权威的语料库，并且需要有完备客观的人工评价结果，以进行反馈和自适应，同时可对不同的过滤方法进行比较。而由于缺乏必要的人力、物力，上述环境在实验室是非常难以模拟的。&lt;img src ="http://blog.csdn.net/chengg0769/aggbug/1710032.aspx" width = "1" height = "1" /&gt;</description></item><item><dc:creator>chengg0769</dc:creator><title>机器搜索引擎 vs 人肉搜索引擎(作者:胡宝介)</title><link>http://blog.csdn.net/chengg0769/archive/2007/07/22/1701740.aspx</link><pubDate>Sun, 22 Jul 2007 02:54:00 GMT</pubDate><guid>http://blog.csdn.net/chengg0769/archive/2007/07/22/1701740.aspx</guid><wfw:comment>http://blog.csdn.net/chengg0769/comments/1701740.aspx</wfw:comment><comments>http://blog.csdn.net/chengg0769/archive/2007/07/22/1701740.aspx#Feedback</comments><slash:comments>0</slash:comments><wfw:commentRss>http://blog.csdn.net/chengg0769/comments/commentRss/1701740.aspx</wfw:commentRss><trackback:ping>http://tb.blog.csdn.net/TrackBack.aspx?PostId=1701740</trackback:ping><description>人肉搜索引擎，我直接把它归入社会性搜索中的问答式搜索（Q&amp;A），其实就是在一个社区里面提出一个问题，由人工参与解答而非搜索引擎通过机器自动算法获得结果的搜索机制。从这个角度理解，新浪爱问、百度知道、雅虎知识堂本质上都是人肉搜索引擎。显然，人肉搜索引擎由于通过人工参与来提炼搜索引擎结果，更有针对性，理论上来讲应该比自然检索结果更能满足搜索者的需求，尤其对于八卦搜索、没有唯一答案的多选结果搜索，人肉搜索的结果更有吸引力。&lt;img src ="http://blog.csdn.net/chengg0769/aggbug/1701740.aspx" width = "1" height = "1" /&gt;</description></item><item><dc:creator>chengg0769</dc:creator><title>圈地方式地人肉搜索是不现实的搜索方式</title><link>http://blog.csdn.net/chengg0769/archive/2007/07/21/1701640.aspx</link><pubDate>Sat, 21 Jul 2007 21:42:00 GMT</pubDate><guid>http://blog.csdn.net/chengg0769/archive/2007/07/21/1701640.aspx</guid><wfw:comment>http://blog.csdn.net/chengg0769/comments/1701640.aspx</wfw:comment><comments>http://blog.csdn.net/chengg0769/archive/2007/07/21/1701640.aspx#Feedback</comments><slash:comments>0</slash:comments><wfw:commentRss>http://blog.csdn.net/chengg0769/comments/commentRss/1701640.aspx</wfw:commentRss><trackback:ping>http://tb.blog.csdn.net/TrackBack.aspx?PostId=1701640</trackback:ping><description>最近看到所谓的圈地，人肉搜索。一句话，yahoo靠那样的人工分类法都无法在现在的海量数据下生存，何况圈地呢。
1. 组织问题
无人能在不给资金的前提下运作一个万人的团体，除非骗人
2. 成本问题
就算1000元/人的费用来整理搜集资料，谁来出这1000W??
&lt;img src ="http://blog.csdn.net/chengg0769/aggbug/1701640.aspx" width = "1" height = "1" /&gt;</description></item></channel></rss>