用户操作
[即时聊天] [发私信] [加为好友]
西洋樱草ID:wangkun9999
24047次访问,排名4939好友254人,关注者385
累了
wangkun9999的文章
原创 5 篇
翻译 1 篇
转载 47 篇
评论 9 篇
西洋樱草的公告
一朝春尽红颜老
花落人亡两不知

              葬花
最近评论
zongyajun:谢谢楼主 , 很好很强大
logy_snail:也发给我一份我也在研究nj49@163.com
zhuzhao:學習了,不錯!
wangdetian168:好东西可惜没有例子
wangdetian168:这不是给我的那个程序么
文章分类
    收藏
    相册
    存档
    软件项目交易
    订阅我的博客
    XML聚合  FeedSky
    订阅到鲜果
    订阅到Google
    订阅到抓虾
    订阅到BlogLines
    订阅到Yahoo
    订阅到GouGou
    订阅到飞鸽
    订阅到Rojo
    订阅到newsgator
    订阅到netvibes
    2007年05月06日

    转载 拆取 Web 页  

    摘要: 本文讨论如何收集来自 Web 的信息,并借助 Internet Explorer 的可重用分析器组件,将它分布到其他 Web 页或数据库。现在,通过使用象 WinInet.dll 这样的 HTTP 组件或许多其他第三方组件,您就可以获取 Web 页,并利用几百种字符串处理功能来获得网页中您所感兴趣的部分。第一个组件 shdocvw.dll,包含称为 WebBrowser 的 Microsoft(R) ActiveX(R) 控件,它真实地显示 Web 页。第二个组件 mshtml.dll,含有能分析 WebBrowser 控件中所包含文档的 HTML 分析器。图 1. 在工具箱中,可看见 WebBrowser 组件。阅读全文>

    发表于 @ 2007年05月06日 15:48:00|评论(loading...)|

    转载  lucene.net 中htmlparser 的使用  

    如果使用改api DemoLib.ll此api 有2个名字空间namespace Lucene.Net.Demonamespace Lucene.Net.Demo.Html我们要使用到该名字下 class HTMLParser比如我们要解析c:\test.htm 我们可以用如下的方法,protected.阅读全文>

    发表于 @ 2007年05月06日 15:44:00|评论(loading...)|

    2007年05月01日

    转载 网络爬虫程序 

    最近跟朋友开始研究搜索引擎的实现,下面是朋友参照jobo改的一个给予java的spider.阅读全文>

    发表于 @ 2007年05月01日 23:12:00|评论(loading...)|

    转载 聚焦爬虫技术研究综述 

    搜索引擎(Search Engine),例如传统的通用搜索引擎AltaVista,Yahoo!和Google等,作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。阅读全文>

    发表于 @ 2007年05月01日 23:08:00|评论(loading...)|

    原创 用Lucene.net对数据库建立索引及搜索  

    最近我一直在研究 Lucene.net ,觉得Lucene.net对数据库方面建索引的功能在网上很少见,其实它是可以对数据库进行索引的,我闲着没事,写了个测试程序,竟然成功了, 可以实现对数据另类查询的一种方式(通过建索引查询),发表出来,和大家共享.阅读全文>

    发表于 @ 2007年05月01日 11:34:00|评论(loading...)|

    2007年04月29日

    转载 Lucene的包结构 

    本文主要讨论Lucene的系统结构,希望对其结构的初步分析,更深入的了解Lucene的运作机制,从而实现对Lucene的功能扩展。阅读全文>

    发表于 @ 2007年04月29日 16:29:00|评论(loading...)|

    2007年04月23日

    转载 使用蜘蛛程序来实现电影资料库中的自动填写功能 

    所谓蜘蛛程序,是一个自动在网络上抓取页面内容的程序,这项技术被广泛使用于搜索引擎中,类似google的蜘蛛程序在你的网站上从index开始抓取html内容,遇到连接在按照原先设置好的规则进入下一级页面抓取内容。关于自动填写电影数据表单,是用户提供一个电影imdb编码,用户点一个连接来使用客户端的js方法来调用一个webservice,页面的内容抓取和分析都依靠webservice中的服务器端方法。阅读全文>

    发表于 @ 2007年04月23日 00:46:00|评论(loading...)|

    2007年04月22日

    转载 搜索引擎研究---网络蜘蛛程序算法相关资料 

    何用C#语言构造蜘蛛程序  "蜘蛛"(Spider)是Internet上一种很有用的程序,搜索引擎利用蜘蛛程序将Web页面收集到数据库,企业利用蜘蛛程序监视竞争对手的网站并跟踪变动,个人用户用蜘蛛程序下载Web页面以便脱机使用,开发者利用蜘蛛程序扫描自己的Web检查无效的链接……对于不同的用户,蜘蛛程序有不同的用途。蜘蛛程序之所以是半自动的,是因为它总是需要一个初始链接(出发点),但此后的运行情况就要由它自己决定了,蜘蛛程序会扫描起始页面包含的链接,然后访问这些链接指向的页面,再分析和追踪那些页面包含的链接。阅读全文>

    发表于 @ 2007年04月22日 23:18:00|评论(loading...)|

    2007年04月21日

    转载 Lucene.net中文分词探究  

    一、中文分词方式: 中文分词几种常用的方式: A. 单字分词 单字分词,顾名思义,就是按照中文一个字一个字地进行分词。如:我们是中国人,效果:我\们\是\中\国\人。 B. 二分法 二分法,就是按两个字进行切分。如:我们是中国人,效果:我们\们是\是中\中国\国人。 阅读全文>

    发表于 @ 2007年04月21日 23:01:00|评论(loading...)|

    转载 中文搜索引擎技术揭密:网络蜘蛛 

    随着搜索经济的崛起,人们开始越加关注全球各大搜索引擎的性能、技术和日流量。作为企业,会根据搜索引擎的知名度以及日流量来选择是否要投放广告等;作为普通网民,会根据搜索引擎的性能和技术来选择自己喜欢的引擎查找资料;作为学者,会把有代表性的搜索引擎作为研究对象…… 阅读全文>

    发表于 @ 2007年04月21日 20:50:00|评论(loading...)|

    转载 Lucene.Net]基本用法 

    1. 基本应用using System;using System.Collections.Generic;using System.Text;using Lucene.Net;using Lucene.Net.Analysis;using Lucene.Net.Analysis.Standard;using Lucene.Net.Documents;using Lucene.Net.Index;using Lucene.Net.QueryParsers;using Lucene.Net.Search;using Lucene.Net.Store;using Lucene.Net.Util;阅读全文>

    发表于 @ 2007年04月21日 01:14:00|评论(loading...)|

    转载 深入 Lucene 索引机制 

    Lucene 是一个基于 Java 的全文检索工具包,你可以利用它来为你的应用程序加入索引和检索功能。Lucene 目前是著名的 Apache Jakarta 家族中的一个开源项目,下面我们即将学习 Lucene 的索引机制以及它的索引文件的结构。在这篇文章中,我们首先演示如何使用 Lucene 来索引文档,接着讨论如何提高索引的性能。只要你能将要索引的文件转化成文本格式,Lucene 就能为你的文档建立索引。比如,如果你想为 HTML 文档或者 PDF 文档建立索引,那么首先你就需要从这些文档中提取出文本信息,然后把文本信息交给 Lucene 建立索引。阅读全文>

    发表于 @ 2007年04月21日 01:13:00|评论(loading...)|

    2007年04月20日

    转载 Lucene学习笔记 

    一、环境需要导入lucene.jar包(在lucene.apache.org下载)二、基本概念1.Lucene的工作流程:(1)阅读全文>

    发表于 @ 2007年04月20日 17:46:00|评论(loading...)|

    Csdn Blog version 3.1a
    Copyright © 西洋樱草