自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(55)
  • 收藏
  • 关注

转载 完全讲解 使用MSCS建立SQL Server集群

集群是一种技术解决方案,它将硬件和软件结合起来,为Web、Email以及数据库等服务提供高可用性和高伸缩性的架构。本文将分析集群的类型,然后将重点放在如何建立一个基于Microsoft的集群解决方案。  集群的类型  集群分为两种类型:负载平衡和失效转移(Failover)。负载平衡集群将负载分散到集群内的各个资源,这要涉及跨越多个前端服务器的分布式网络传输。负载平衡集群令每个可用

2009-08-23 10:36:00 967

转载 轻松构建网络负载平衡群集(组图)

   当把一台服务器(包括Web服务器、FTP服务器或者流媒体服务器等等)放入网络中之后,随着客户端数量的不断增加,人们往往需要功能更强大、处理速度更快的服务器。为了解决这个问题,如果将原有的服务器替换成功能更强大、处理速度更快的服务器显然并不是值得称道的办法。但是如果能把新服务器添加到原有服务器的处理能力基础上而不是替换它,这种方案毫无疑问更容易被用户接受。网络负载平衡(Network

2009-08-23 09:34:00 2695

原创 FMS3服务器端应用程序的搭建及SharedObject对象和视频录制方面的权限问题。

一、创建应用程序目录      创建FMS3服务器程序很简单, 就是创建个文件夹而已:(fms3安装目录)/applications/(Create应用程序文件夹)。      创建完之后,要记得同时把FMS两个相应的服务打开:Start Adobe Flash Media Server 3.5.1和Start Flash Media Administration Server 3.5(依

2009-08-04 10:53:00 2483

转载 lucene 全文检索简介

一,信息检索的过程简介全文检索和数据库应用最大的不同在于:让最相关的头100条结果满足98%以上用户的需求1,构建文本库在开发功能前,一个信息检索系统需要做些准备工作,首先,必须要构建一个文本数据库,这个文本数据库用来保存所有用户可能检索的信息。在这些信息的基础上,确定索引中的文本类型,文本类型是被系统所认可的一种信息格式,这种格式应当具有可识别,冗余程度低的特点。一旦文本模型确定下来后,就不

2008-06-05 09:38:00 1669

转载 拆取 Web 页

摘要: 本文讨论如何收集来自 Web 的信息,并借助 Internet Explorer 的可重用分析器组件,将它分布到其他 Web 页或数据库。(打印共 7 页)程序员面临的一个共同任务就是收集 Web 站点的数据,并将它分布到数据库或其他 Web 页。例如,程序员可能需要从气象站点获得天气预报图,从在线股票经纪人那里获得股票报价,以及从新闻站点获得行业新闻。然后,这些信息被放在一个 Web

2007-05-06 15:48:00 3419 2

转载 lucene.net 中htmlparser 的使用

在lucene.net代码包里有个。lucene.net-1.9.RC1-000-26May05.src/Lucene.Net-1.9.rc1/Demo/DemoLib此包是用来解析html文档,获取html文章中的title meta等。如果使用改api DemoLib.ll此api 有2个名字空间namespace Lucene.Net.Demonamespace Lucene.Net.Dem

2007-05-06 15:44:00 1951 2

翻译 一个C#写的爬虫程序

CodeProject上看见的感兴趣的文章,先研究着,有空翻译一下:简介      网页爬虫(也被称做蚂蚁或者蜘蛛)是一个自动抓取万维网中网页数据的程序.网页爬虫一般都是用于抓取大量的网页,为日后搜索引擎处理服务的.抓取的网页由一些专门的程序来建立索引(如:Lucene,DotLucene),加快搜索的速度.爬虫也可以作为链接检查器或者HTML代码校验器来提供一些服务.比较新的一种

2007-05-02 00:13:00 21128 27

转载 网络爬虫程序

最近跟朋友开始研究搜索引擎的实现,下面是朋友参照jobo改的一个给予java的spiderps:里面的英文可以略过了,这家伙英语水平实在是烂= =      Sosoo 1.0网络爬虫程序---用户开发手册编写人:王建华(rimen/jerry)编写目的:基于sosoo定制web spider程序的编程人员。                             目录 一:安装s

2007-05-01 23:12:00 3847 7

转载 聚焦爬虫技术研究综述

随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎(Search Engine),例如传统的通用搜索引擎AltaVista,Yahoo!和Google等,作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。但是,这些通用性搜索引擎也存在着一定的局限性,如:  (1) 不同领域、不同背景的用户往往具有不同的检索目的和需求,通用搜索引擎所

2007-05-01 23:08:00 2645

原创 用Lucene.net对数据库建立索引及搜索

       最近我一直在研究 Lucene.net ,发现Lucene.net对数据库方面建索引的文章在网上很少见,其实它是可以对数据库进行索引的,我闲着没事,写了个测试程序,竟然成功了, 可以实现对数据另类查询的一种方式(通过建索引查询),发表出来,和大家共享.   其实 Lucene.net 对数据库建索引很简单,只要把数据表里面的记录读出来,然后对每个字段索引就行了.本文中数据库的

2007-05-01 11:34:00 2344

转载 使用蜘蛛程序来实现电影资料库中的自动填写功能

在新版的“电影资料库”中,ajax被我大范围尝试,以此来提高界面的友好性,比如输入提示效果,div模拟对话框和服务端方法异步调用。其中,我最得意的是依靠ajax技术实现了一个类似蜘蛛程序(spider),完成表单自动填写。所谓蜘蛛程序,是一个自动在网络上抓取页面内容的程序,这项技术被广泛使用于搜索引擎中,类似google的蜘蛛程序在你的网站上从index开始抓取html内容,遇到连接在按照原先

2007-04-23 00:46:00 1105

转载 搜索引擎研究---网络蜘蛛程序算法相关资料

何用C#语言构造蜘蛛程序  "蜘蛛"(Spider)是Internet上一种很有用的程序,搜索引擎利用蜘蛛程序将Web页面收集到数据库,企业利用蜘蛛程序监视竞争对手的网站并跟踪变动,个人用户用蜘蛛程序下载Web页面以便脱机使用,开发者利用蜘蛛程序扫描自己的Web检查无效的链接……对于

2007-04-22 23:18:00 1004

转载 Lucene.net中文分词探究

 一、中文分词方式:中文分词几种常用的方式:A. 单字分词单字分词,顾名思义,就是按照中文一个字一个字地进行分词。如:我们是中国人,效果:我/们/是/中/国/人。B. 二分法二分法,就是按两个字进行切分。如:我们是中国人,效果:我们/们是/是中/中国/国人。C. 词库分词词库分词,就是按某种算法构造词然后去匹配已建好的词库集合,如果匹配到就切分出来成为词语。通常词库分词

2007-04-21 23:01:00 1662 1

转载 中文搜索引擎技术揭密:网络蜘蛛

 关键词:中文搜索引擎技术揭密       随着搜索经济的崛起,人们开始越加关注全球各大搜索引擎的性能、技术和日流量。作为企业,会根据搜索引擎的知名度以及日流量来选择是否要投放广告等;作为普通网民,会根据搜索引擎的性能和技术来选择自己喜欢的引擎

2007-04-21 20:50:00 937

转载 Lucene.Net]基本用法

本文仅记录一些简单的使用方法,供初学者参考。以下例子采用 Lucene.NET 1.9 版本,可取去 Lucene.Net 下载。1. 基本应用using System;using System.Collections.Generic;using System.Text;using Lucene.Net;using Lucene.Net.Analysis;using Lucene.Net.An

2007-04-21 01:14:00 1871 1

转载 深入 Lucene 索引机制

Lucene 是一个基于 Java 的全文检索工具包,你可以利用它来为你的应用程序加入索引和检索功能。Lucene 目前是著名的 Apache Jakarta 家族中的一个开源项目,下面我们即将学习 Lucene 的索引机制以及它的索引文件的结构。在这篇文章中,我们首先演示如何使用 Lucene 来索引文档,接着讨论如何提高索引的性能。最后我们来分析 Lucene 的索引文件结构。需要记住的是,L

2007-04-21 01:13:00 841

转载 Lucene学习笔记

一、环境需要导入lucene.jar包(在lucene.apache.org下载)二、基本概念1.Lucene的工作流程:(1) 使用IndexWriter,在指定的目录建立索引的文件  (2) 将需要检索的数据转换位Document的Filed对象,然后将Document用IndexWriter添加倒索引的文件中   (3) 处理索引信息,关闭IndexWriter流   (4)

2007-04-20 17:46:00 980

转载 搜索引擎中中文词组分词的实现

Lucene.net标准分词器在英文分词中有非常好的体验。比喻说:在邮件,IP地址,符号处理方面,它都处理得非常好。只是很遗憾,它不支持中文词组分词。于是,我就通过修改里面的核心代码让它扩展,支持中文的分词。目标:使它能够增加对中文词组的切词。效果:原句:“我是中国人!I am chiness!Email:youpeizun126@126.com;IP:172.17.34.168”

2007-04-18 13:12:00 1287

转载 Lucene与Tag图

Tag图是采用了Tag作为文章管理工具的网站经常需要呈现的一种视图。利用Lucene的优异性能,可以出色的完成这一功能。生成一个Tag图,首先需要知道用于一共使用了哪些Tag,其次需要知道每个Tag被使用的次数。对于这两个功能,都可以使用Lucene.Index.IndexReader.Terms方法。这个方法返回索引目录下所有Term,以及他们在全部文档中被使用的次数。这就为我们生成Ta

2007-04-18 02:08:00 904

转载 利用Lucene.Net进行文档递归查询

如何在项目中分析建立索引1.添加引用lucene.net dll和名字空间using Lucene.Net.Analysis.Standard;using Lucene.Net.Documents;using Lucene.Net.Index;using Lucene.Net.QueryParsers;using Lucene.Net.Search;using ClassLibrary1.Icon

2007-04-18 02:01:00 1841

转载 Lucene.net多字段(Fields)、多索引目录(IndexSearcher)搜索

Lucene.net是目前在.net环境中被普遍使用的全文索引的开源项目,这次在项目的开发中也使用它进行全文索引。在开发过程中碰到一些小问题就是对多字段和多索引目录进行搜索。1、多字段搜索就是同时要一个以上的字段中的内容进行比较搜索,类似概念在SQL中就是select * from Table where a like %query% or b like %query%。Lucene.ne

2007-04-18 02:00:00 1296

转载 用Lucene.Net轻松创建最简单的搜索引擎

Lucene是当下最受欢迎的Java开源搜索引擎开发包. 其实从本质上说, 它就是一个索引和检索的软件系统.在Lucene中有一种特定的类型: Document, 它是一个Key-Value类型的集合. 我们只要将需要被索引的内容填入进去, Lucene就能够自动为其建立索引, 并且提供搜索. 因此, 通过Document, Lucene可以索引任何类型.前几天一个做职位信息搜索的朋友让我给他的搜

2007-04-18 01:56:00 1067

转载 【分享】Lucene.Net的中文分词组件AdvancedChineseAnalyzer

库名称:AdvancedChineseAnalyzer 高级中文文本分析器描述:A Chinese Analyzer that utilizes HMM. 基于隐马尔科夫模型的中文分析器。运行环境:Microsoft .Net Framework 2.0依存软件:Lucene.Net作者:Kelvin ZHANG (kelvin.cn{@t}56.com)授权:Free for noncommer

2007-04-18 01:55:00 2072

转载 利用Lucene.net搜索引擎进行多条件搜索的做法

 1 联合两个索引查询,已解决: IndexSearcher[] searchers = new IndexSearcher[2];     searchers[0] = new IndexSearcher(m_indexpath); searchers[1] = new IndexSearcher(m_outindexpath); MultiSearcher multiSearcher = ne

2007-04-18 01:51:00 1050

转载 Lucene.Net初识(2)

 Lucene.net 系列四 --- index 下本文将介绍有关索引并发控制的问题,以结束对Lucene.net建立索引问题的讨论. 1. 允许任意多的读操作并发.即可以有任意多的用户在同一时间对同一份索引做查询工作. 2. 允许任意多的读操作在索引被正在被修改的时候进行.即哪怕索引正在被优化,添加删除文档,这时也是允许用户对索引进行查询工作. (it’s so cool.)

2007-04-18 01:43:00 1295

转载 Lucene.Net初识(1)

Lucene.Net 系列一本文介绍了什么是Lucene,Lucene能做什么. 如何从一个文件夹下的所有txt文件中查找特定的词? 本文将围绕该个实例介绍了lucene.net的索引的建立以及如何针对索引进行搜索.最后还将给出源代码供大家学习. What’s LuceneLucene是一个信息检索的函数库(Library),利用它你可以为你的应用加上索引和搜索的功能. Lucen

2007-04-18 01:41:00 1145

转载 应用lucene.net进行搜索测试

 经过上篇我们已经对59部小说文本建立了索引,详情可见http://www.cnblogs.com/abob/archive/2006/08/26/487140.html 1: 搜索关键字using System;using System.Collections.Generic;using System.Text;using System.IO;using Lucene.Net.Analysi

2007-04-18 01:28:00 666

转载 应用Lucene.net建立全文索引引擎

具体方案:1.建立索引为60篇记事本文档的中文小说建立索引,分析器采用Lucene.Net.Analysis.Cn.ChineseAnalyzer()(这个索引器是从http://www.cnblogs.com/dudu/archive/2004/06/22/17783.aspx下载的,是dudu修正bug后的版本,感谢dudu.)统计索引的建立时间.同时,会更改IndexWriter的参数以感受

2007-04-18 00:19:00 1331 2

转载 Lucene.net系列六 -- search 下

本文主要结合测试案例介绍了Lucene下的各种查询语句以及它们的简化方法.通过本文你将了解Lucene的基本查询语句,并通过学习相关的测试代码以加强了解.源代码下载具体的查询语句在了解了SQL后, 你是否想了解一下查询语法树?在这里简要介绍一些能被Lucene直接使用的查询语句.1.         TermQuery查询某个特定的词,在文章开始的例子中已有介绍.常

2007-04-08 00:48:00 724

转载 Lucene.net 系列五 --- search 上

在前面的系列我们一直在介绍有关索引建立的问题,现在是该利用这些索引来进行搜索的时候了,Lucene良好的架构使得我们只需要很少的几行代码就可以为我们的应用加上搜索的功能,首先让我们来认识一下搜索时最常用的几个类.查询特定的某个概念当我们搜索完成的时候会返回一个按Sorce排序的结果集Hits. 这里的Score就是接近度的意思,象Google那样每个页面都会有一个分值,搜索结果按分值排

2007-04-08 00:47:00 546

转载 Lucene.net 系列四 --- index 下

本文将介绍有关索引并发控制的问题,以结束对Lucene.net建立索引问题的讨论.1. 允许任意多的读操作并发.即可以有任意多的用户在同一时间对同一份索引做查询工作.2. 允许任意多的读操作在索引被正在被修改的时候进行.即哪怕索引正在被优化,添加删除文档,这时也是允许用户对索引进行查询工作. (it’s so cool.)3. 同一时间只允许一个对索引修改的操作.即同一时间只允许I

2007-04-08 00:46:00 544

转载 Lucene.net 系列三 --- index 中

本文将进一步讨论有关Lucene.net建立索引的问题:主要包含以下主题:1.索引的权重2.利用IndexWriter 属性对建立索引进行高级管理3.利用RAMDirectory充分发挥内存的优势4.利用RAMDirectory并行建立索引5.控制索引内容的长度6.Optimize 优化的是什么?源代码下载本文将进一步讨论有关Lucene.net建立索引的问题:索引的权重根据文

2007-04-08 00:45:00 629

转载 Lucene.net 系列二 --- index (上)

Lucene建立Index的过程: 1.        抽取文本. 比如将PDF以及Word中的内容以纯文本的形式提取出来.Lucene所支持的类型主要为String,为了方便同时也支持Date 以及Reader.其实如果使用这两个类型lucene会自动进行类型转换. 2.        文本分析. Lucene将针对所给的文本进行一些最基本的分析,并从中去除一些不必要的信息,比如

2007-04-08 00:44:00 536

转载 Lucene.Net系列一 ---simple example

What’s Lucene Lucene是一个信息检索的函数库(Library),利用它你可以为你的应用加上索引和搜索的功能. Lucene的使用者不需要深入了解有关全文检索的知识,仅仅学会使用库中的一个类,你就为你的应用实现全文检索的功能.不过千万别以为Lucene是一个象google那样的搜索引擎,Lucene甚至不是一个应用程序,它仅仅是一个工具,一个Library.你也可以把它

2007-04-08 00:42:00 581

原创 中文分词的实现思路

 在PHPE.net论坛上给网友的回贴。现在的搜索引擎技术主要包括四个环节,网页抓取、超链分析、网页检索和搜索服务。分词就是把一句完整的话分成几个词,搜索引擎找出其中的关键词进行检索。中文分词是搜索服务的入口点,是中文搜索引擎的基础所在。有了良好的分词技术,才能真正让搜索引擎了解用户所需要的信息是什么。写写中文分词的PHP实现思路(因为最近正在写个项目,暂时不能提供源代码,不过难度不大),虽然在各

2007-03-19 22:09:00 839

转载 Lucene.net 实现全文搜索

 忙了几天终于实现一个简单的全文搜索在此回顾总结一下本文介绍一下Lucene.Net 是什么?Lucene.Net 能作什么?以及怎么做的问题?最后给出 Lucene.Net 实现全文搜索的一个示例1、Lucene.Net 是什么?Lucene.net 起初是一个开源项目然后转向商业化,也在Lucene.net 2.0已经发布,不过是要money D ,Lucene.net的命运有

2007-03-19 09:46:00 939

转载 爬虫/蜘蛛程序的制作(C#语言)

问题是对某一网站或所有网站进行抓取,即下载所有网页。怎么实现呢?先将问题最小化(转化的思想,转化为小规模,可以解决的问题):如果只有一个网页,怎么下载?问题变地很简单,只要用WebClient/WebRequest(甚至OpenFileDialog都可以)打开Url地址,将数据流存入本地存储器的文件(以相应的扩展名作为扩展名)即可。示例代码如下:string BoardStream;//下

2007-03-14 22:55:00 1022

转载 用C#实现蜘蛛/爬虫程序的多线程控制

【引自Felomeng的博客】在《爬虫/蜘蛛程序的制作(C#语言)》一文中,已经介绍了爬虫程序实现的基本方法,可以说,已经实现了爬虫的功能。只是它存在一个效率问题,下载速度可能很慢。这是两方面的原因造成的:       1.分析和下载不能同步进行。在《爬虫/蜘蛛程序的制作(C#语言)》中已经介绍了爬虫程序的两个步骤:分析和下载。在单线程的程序中,两者是无法同时进行的。也就是说,分析时会造成

2007-03-14 22:47:00 1639 1

转载 如何用C#语言构造蜘蛛程序

 "蜘蛛"(Spider)是Internet上一种很有用的程序,搜索引擎利用蜘蛛程序将Web页面收集到数据库,企业利用蜘蛛程序监视竞争对手的网站并跟踪变动,个人用户用蜘蛛程序下载Web页面以便脱机使用,开发者利用蜘蛛程序扫描自己的Web检查无效的链接……对于不同的用户,蜘蛛程序有不同的用途。那么,蜘蛛程序到底是怎样工作的呢?  蜘蛛是一种半自动的程序,就象现实当中的蜘蛛在它的Web(蜘蛛网)上

2007-03-14 22:13:00 767

转载 Asp.net 数据采集基类

using System;using System.Data;using System.Configuration;using System.Web;using System.Web.Security;using System.Web.UI;using System.Web.UI.WebControls;using System.Web.UI.WebControls.WebParts;using

2007-03-14 22:09:00 771 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除