自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

菲度专栏

垂直搜索引擎的研究

  • 博客(12)
  • 收藏
  • 关注

转载 术语Ajax

 简介  术语Ajax用来描述一组技术,它使浏览器可以为用户提供更为自然的浏览体验。在Ajax之前,Web站点强制用户进入提交/等待/重新显示范例,用户的动作总是与服务器的“思考时间”同步。Ajax提供与服务器异步通信的能力,从而使用户从请求/响应的循环中解脱出来。借助于Ajax,可以在用户单击按钮时,使用JavaScript和DHTML立即更新UI,并向服务器发出异步请求,以执行更新或查

2006-04-24 23:35:00 939

原创 中文分词

搜索引擎技术的研究,国外比中国要早近十年,从最早的Archie,到后来的Excite,以及altvista、overture、google等搜索引擎面世,搜索引擎发展至今,已经有十几年的历史,而国内开始研究搜索引擎是在上世纪末本世纪初。在许多领域,都是国外的产品和技术一统天下,特别是当某种技术在国外研究多年而国内才开始的情况下。例如操作系统、字处理软件、浏览器等等,但搜索引擎却是个例外。虽然在国外

2006-04-19 11:10:00 1027

原创 菲度垂直搜索的流程

初始连接地址开始爬行->分析页面->取得有效联结地址(认为有产品购买详情的为有效联结,而一般广告去掉)->使用模板分析页面,得到有价值信息->生成反索引文件(Luncene)

2006-04-19 10:51:00 1089

原创 垂直搜索排序

你说的同步恐怕没有,我人为lucene其实就是类似于mysql,access之类的中小型数据库,只不过是专门为全文检索而设计.在实际使用中,我觉得你所说的同步并不重要.关键的是排序的问题,lucene是按照语意进行打分,按照自然语言的相关度进行打分排序,实际中我们希望有个一个公式.适合与垂直搜索的排序公式.而可以参照的google算法恐怕不适合垂直搜索,因为垂直搜索专门于几个大型的站点,没有bai

2006-04-19 10:34:00 1166

原创 菲度垂直搜索引擎 代码注释 4

’线程池中每个线程对应一个初始的地址,抓到有用的信息后入队Imports System.Text.RegularExpressionsImports System.TextImports System.Data.SqlClientImports System.DataImports System.ThreadingClass VisitObject    Dim Qin As Queue   

2006-04-18 17:37:00 1262

原创 菲度垂直搜索引擎 代码注释 3

‘给定一个地址 进行页面抓取Imports SystemImports System.NetImports System.ThreadingImports System.TextImports System.IOClass ClientGetAsync    Public allDone As New ManualResetEvent(False)    Const BUFFER_SIZE

2006-04-18 17:32:00 1081

原创 菲度垂直搜索引擎 代码注释 2

‘代表一个页面结点Public Class UNode    Private mpsn As Integer    Private msn As Integer    Private mlevel As Integer    Private mmaxget As Integer    Private mtemid As Integer    Private mst As String    P

2006-04-18 17:30:00 1224

原创 菲度垂直搜索引擎 代码注释 1

Imports System.Data.SqlClientImports System.DataImports System.IOImports Microsoft.VisualBasic胡光伟写与2005-08-12垂直搜索引擎Module Main    Public DoneEvent As New ManualResetEvent(False)    Public DWork()

2006-04-18 17:17:00 1553 1

原创 菲度垂直搜索引擎代码

菲度http://www.faydu.net 为一个垂直在线搜索的演示版,主要对国内一些购物站点进行搜索整理,现在开源测试版本的代码,供大家讨论。下载说明:1》因为本程序是在服务器上运行,是在多个处理器下运行的,个人电脑上请控制线程数量2》包含一个data 的数据库 还原到sql server 3》收集完毕默认在bin目录有licene生成的反排的索引文件 4》下载地址:htt

2006-04-18 16:55:00 4573 13

原创 开源spider一览

spider是搜索引擎的必须模块.spider数据的结果直接影响到搜索引擎的评价指标.第一个spider程序由MIT的Matthew K Gray操刀该程序的目的是为了统计互联网中主机的数目Spier定义(关于Spider的定义,有广义和狭义两种). 狭义:利用标准的http协议根据超链和web文档检索的方法遍历万维网信息空间的软件程序. 广义:所有能利用http

2006-04-17 02:51:00 1303

原创 关于菲度

菲度搜索提供最全面的在线购搜索搜索以及一体化的企业网站建设:本站搜索引擎采用c#编写,全文检索采用国外的流行的Lucene,我们在改进了Lucene的相关性能后更适合中国的实际国情,检索速度卓越,分词效果优秀.并且在实际爬行网页时,效率明显,因为我们采用多线程 开发在单cpu的运行环境下,抓取百万级的数据量仅需要一个小时. 

2006-04-17 02:47:00 1121

原创 什么是垂直搜索引擎

垂直搜索引擎是相对通用搜索引擎的信息量大、查询不准确、深度不够等提出来的新的搜索引擎服务模式,通过针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。其特点就是“专、精、深”,且具有行业色彩,相比较通用搜索引擎的海量信息无序化,垂直搜索引擎则显得更加专注、具体和深入。 垂直搜索引擎能否赢得市场? 垂直搜索引擎为用户提供的并不是上百甚至上千万相关网页,而是范围极为缩小、极具

2006-04-17 02:44:00 8026 12

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除