搜索技术学习笔记
bestdowt1314
这个作者很懒,什么都没留下…
展开
-
Lucene.Net 的添加、删除、优化索引
添加protected void InsertDoc(Index obj, float f) { Document doc = BindToDocument(obj); //设置Boost值 if (f > 0.0000f) { doc.SetBoost(f); } lock (objLock原创 2009-05-04 13:36:00 · 1027 阅读 · 0 评论 -
lucene 索引注意事项
<br />Boosting特性<br />luncene对Document和Field提供了一个可以设置的Boosting参数(权重), 这个参数的用处是告诉lucene, 某些记录更重要,在搜索的时候优先考虑他们 比如在搜索的时候你可能觉得几个门户的网页要比垃圾小站更优先考虑<br />lucene默认的boosting参数是1.0, 如果你觉得这个field重要,你可以把boosting设置为1.5, 1.2....等, 对Document设置boosting相当设定了它的每个Field的基准boos转载 2010-09-09 09:17:00 · 383 阅读 · 0 评论 -
使用robots.txt 提交Sitemap
<br />使用 robots.txt 提交 Sitemap<br />您可以通过向 robots.txt 文件添加以下行(使用您自己的 Sitemap 的完整路径更新示例网址)告诉 Google 和其他搜索引擎有关您的 Sitemap 的信息:<br /><br />Sitemap: http://example.com/sitemap_location.xml此指令不受 user-agent 行的影响,因此可放在文件中的任意位置。 如果您有 Sitemap 索引文件,可在其中加入该文件的位置。 您不需要转载 2010-08-30 10:04:00 · 567 阅读 · 0 评论 -
robots.txt文件的规范写法(控制搜索引擎收录)
<br />拒绝搜索引擎收录与robots.txt文件的规范写法<br /><br />首先,文件名必须是robots.txt小写的,位于站点根目录例如web文件夹之类<br />访问路径为 http://www.某某站点.com/robots.txt<br /><br />其次,文本为ASCII编码(国外的推荐是文本编辑器在UNIX模式下),<br />robots.txt内容如下,且:冒号后不能有空格:<br /><br />【情况〇】以#号开头的视为注释,<br />且注释写入时应当单独成行.且不能在转载 2010-08-30 10:03:00 · 998 阅读 · 0 评论 -
lucene 范围搜索的六种实现方式
<br /> <br /> <br />范围搜索的六种实现方式<br /> 当你想用一些规则(例如时间范围)来过滤查询的时候,lucene给我们提供了许多方法实现。选择越多意味着灵活性越大,但同时也意味着做出错误选择的机会 也越大。下列代码包含了六种filter的使用方式和性能表现。并加入了选择建议。<br />import java.io.IOException;<br /><br />import org.apache.lucene.index.IndexReader;<br />impor转载 2010-08-25 14:53:00 · 2453 阅读 · 0 评论 -
Meta标签详解
<br />您的个人网站即使做得再精彩,在“浩瀚如海”的网络空间中,也如一叶扁舟不易为人发现,如何推广<br />个人网站,人们首先想到的方法无外乎以下几种:<br /><br /> ● 在搜索引擎中登录自己的个人网站<br /><br /> ● 在知名网站加入你个人网站的链接<br /><br /> ● 在论坛中发帖子宣传你的个人网站<br /><br /> 很多人却忽视了HTML标签META的强大功效,一个好的META标签设计可以大大提高你的个人网站被搜索到的可能性,有兴趣吗,谁我来转载 2010-08-11 17:47:00 · 296 阅读 · 0 评论 -
Lunce.net - 解决内存溢出问题
Lucene在索引数据比较少的时候内存问题不是很明显,但如果索引文件有几个G的时候,内存就会出现溢出问题.这个问题是由于Lucene的内部Bug引起的,如果在搜索时设置了排序,则它会缓存相关数据,但在下一次搜索时,它没有清除内部的一些缓存数据,所以会造成内存溢出.这个问题的解决办法就是改Lucene的源代码. 修改步骤如下: 1.修转载 2009-12-31 11:09:00 · 788 阅读 · 0 评论 -
搜索之路- c#从html中提取文本
直接封装成一个类的,用起来还挺方便的 using System;using System.Data;using System.Configuration;using System.Web;using System.Web.Security;using System.Web.UI;using System.Web.UI.WebControls;usin转载 2009-12-30 16:26:00 · 663 阅读 · 1 评论 -
搜索之路- c# 爬虫技术
爬虫,又称蜘蛛,是从别的网站抓取资源的一种方法,C#.NET使用爬虫的方法如下:protected string GetPageHtml(string url) { string pageinfo; try {转载 2009-12-30 15:51:00 · 634 阅读 · 0 评论 -
lucene、lucene.NET详细使用与优化详解
1 lucene简介1.1 什么是luceneLucene是一个全文搜索框架,而不是应用产品。因此它并不像www.baidu.com 或者google Desktop那么拿来就能用,它只是提供了一种工具让你能实现这些产品。1.2 lucene能做什么要回答这个问题,先要了解lucene的本质。实际上lucene的功能很单一,说到底,就是你给它若干个字符串,然后它转载 2010-02-26 16:31:00 · 361 阅读 · 0 评论