2007年05月06日
摘要: 本文讨论如何收集来自 Web 的信息,并借助 Internet Explorer 的可重用分析器组件,将它分布到其他 Web 页或数据库。现在,通过使用象 WinInet.dll 这样的 HTTP 组件或许多其他第三方组件,您就可以获取 Web 页,并利用几百种字符串处理功能来获得网页中您所感兴趣的部分。第一个组件 shdocvw.dll,包含称为 WebBrowser 的 Microsoft(R) ActiveX(R) 控件,它真实地显示 Web 页。第二个组件 mshtml.dll,含有能分析 WebBrowser 控件中所包含文档的 HTML 分析器。图 1. 在工具箱中,可看见 WebBrowser 组件。阅读全文>
发表于 @ 2007年05月06日 15:48:00|评论(loading...)|收藏
如果使用改api DemoLib.ll此api 有2个名字空间namespace Lucene.Net.Demonamespace Lucene.Net.Demo.Html我们要使用到该名字下 class HTMLParser比如我们要解析c:\test.htm 我们可以用如下的方法,protected.阅读全文>
发表于 @ 2007年05月06日 15:44:00|评论(loading...)|收藏
2007年05月01日
最近跟朋友开始研究搜索引擎的实现,下面是朋友参照jobo改的一个给予java的spider.阅读全文>
发表于 @ 2007年05月01日 23:12:00|评论(loading...)|收藏
搜索引擎(Search Engine),例如传统的通用搜索引擎AltaVista,Yahoo!和Google等,作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。阅读全文>
发表于 @ 2007年05月01日 23:08:00|评论(loading...)|收藏
最近我一直在研究 Lucene.net ,觉得Lucene.net对数据库方面建索引的功能在网上很少见,其实它是可以对数据库进行索引的,我闲着没事,写了个测试程序,竟然成功了, 可以实现对数据另类查询的一种方式(通过建索引查询),发表出来,和大家共享.阅读全文>
发表于 @ 2007年05月01日 11:34:00|评论(loading...)|收藏
2007年04月29日
本文主要讨论Lucene的系统结构,希望对其结构的初步分析,更深入的了解Lucene的运作机制,从而实现对Lucene的功能扩展。阅读全文>
发表于 @ 2007年04月29日 16:29:00|评论(loading...)|收藏
2007年04月23日
所谓蜘蛛程序,是一个自动在网络上抓取页面内容的程序,这项技术被广泛使用于搜索引擎中,类似google的蜘蛛程序在你的网站上从index开始抓取html内容,遇到连接在按照原先设置好的规则进入下一级页面抓取内容。关于自动填写电影数据表单,是用户提供一个电影imdb编码,用户点一个连接来使用客户端的js方法来调用一个webservice,页面的内容抓取和分析都依靠webservice中的服务器端方法。阅读全文>
发表于 @ 2007年04月23日 00:46:00|评论(loading...)|收藏
2007年04月22日
何用C#语言构造蜘蛛程序 "蜘蛛"(Spider)是Internet上一种很有用的程序,搜索引擎利用蜘蛛程序将Web页面收集到数据库,企业利用蜘蛛程序监视竞争对手的网站并跟踪变动,个人用户用蜘蛛程序下载Web页面以便脱机使用,开发者利用蜘蛛程序扫描自己的Web检查无效的链接……对于不同的用户,蜘蛛程序有不同的用途。蜘蛛程序之所以是半自动的,是因为它总是需要一个初始链接(出发点),但此后的运行情况就要由它自己决定了,蜘蛛程序会扫描起始页面包含的链接,然后访问这些链接指向的页面,再分析和追踪那些页面包含的链接。阅读全文>
发表于 @ 2007年04月22日 23:18:00|评论(loading...)|收藏
2007年04月21日
一、中文分词方式:
中文分词几种常用的方式:
A. 单字分词
单字分词,顾名思义,就是按照中文一个字一个字地进行分词。如:我们是中国人,效果:我\们\是\中\国\人。
B. 二分法
二分法,就是按两个字进行切分。如:我们是中国人,效果:我们\们是\是中\中国\国人。
阅读全文>
发表于 @ 2007年04月21日 23:01:00|评论(loading...)|收藏
随着搜索经济的崛起,人们开始越加关注全球各大搜索引擎的性能、技术和日流量。作为企业,会根据搜索引擎的知名度以及日流量来选择是否要投放广告等;作为普通网民,会根据搜索引擎的性能和技术来选择自己喜欢的引擎查找资料;作为学者,会把有代表性的搜索引擎作为研究对象……
阅读全文>
发表于 @ 2007年04月21日 20:50:00|评论(loading...)|收藏
1. 基本应用using System;using System.Collections.Generic;using System.Text;using Lucene.Net;using Lucene.Net.Analysis;using Lucene.Net.Analysis.Standard;using Lucene.Net.Documents;using Lucene.Net.Index;using Lucene.Net.QueryParsers;using Lucene.Net.Search;using Lucene.Net.Store;using Lucene.Net.Util;阅读全文>
发表于 @ 2007年04月21日 01:14:00|评论(loading...)|收藏
Lucene 是一个基于 Java 的全文检索工具包,你可以利用它来为你的应用程序加入索引和检索功能。Lucene 目前是著名的 Apache Jakarta 家族中的一个开源项目,下面我们即将学习 Lucene 的索引机制以及它的索引文件的结构。在这篇文章中,我们首先演示如何使用 Lucene 来索引文档,接着讨论如何提高索引的性能。只要你能将要索引的文件转化成文本格式,Lucene 就能为你的文档建立索引。比如,如果你想为 HTML 文档或者 PDF 文档建立索引,那么首先你就需要从这些文档中提取出文本信息,然后把文本信息交给 Lucene 建立索引。阅读全文>
发表于 @ 2007年04月21日 01:13:00|评论(loading...)|收藏
2007年04月20日
一、环境需要导入lucene.jar包(在lucene.apache.org下载)二、基本概念1.Lucene的工作流程:(1)阅读全文>
发表于 @ 2007年04月20日 17:46:00|评论(loading...)|收藏