自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 网络蜘蛛基本原理

网络蜘蛛基本原理 关键字: 网络蜘蛛 爬虫 spider 网络蜘蛛即WebSpider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网...

2009-03-12 21:31:54 344

原创 正确使用不同版本的MSXML

http://www.cnblogs.com/mjgforever/archive/2007/08/31/877076.html前言        微软有很多MSXML的版本,如Msxml2.DOMDocument.6.0、Msxml2.DOMDocument.5.0、Msxml2.DOMDocument.4.0等。在浏...

2009-02-25 19:27:34 288

原创 XML DOM 初学者指南

XML DOM 初学者指南http://www.yellowsheepriver.com/memberarea/infor/php/html/001/03html/001/0006.htm 总述:本文主要讨论如何利用XMLDOM访问和维护XML文档,该XMLDOM由Microsoft 解析器实现。 简介 作为VB的开发者你可能会接触XML文档。你现在想处理XML文...

2009-02-25 18:51:44 175

原创 利用VC++与MSXML解析XML文档

http://www.xml.org.cn/dispbbs.asp?BoardID=11&id=23546&replyID=10134&star=2&skin=0 一、文档对象模型(DOM)   DOM是Document Object Model(文档对象模型)的简称,是对XML文档进行应用开发、编程的应用程序接口(API)。作为W3C公布的一种跨平台、与语言无关的...

2009-02-25 18:43:18 101

Heritrix1.14.1在Eclipse下的配置总结(续)

前面做了一个Heritrix1.14.1在Eclipse下的配置总结,那种配置方法虽然可以在Eclipse把Heritrix运行起来,但是存在在WUI下建立JOB时,存在“Modules界面不能改变选择项”的问题。  因此又试了一下,如果能够按以下方法配置,即可正常启动,并且不再发生上面提到的问题。简要说明如下:  1、下载heritrix-1.14.1-src.zip和heritrix-1....

2008-12-01 19:50:34 136

解决ubuntu耳机与音响控制问题

前几天,装上了ubuntu8.10,感觉很不错,有一点很不明白,就是明明是插上耳机的为什么音响里面还有声音,这个问题一直困扰了我好几天,由于是在实验室怕打扰其他同学,也不好调试,今天终于弄好了,原来很简单: 只要关掉(可能应该是打开)声音开里面的Headphone Jack Sence就好了。 双击任务栏小喇叭->设备第一项->开头选项板->Headphone Jack...

2008-11-18 20:00:26 499

Heritrix1.14.1在Eclipse下的配置总结

今天终于把Heritrix启动起来了,在此做些总结。 很长时间就想试试这个强大的爬虫了,但是经过多次在命令行里按照网上的各位大侠的方法都失败,不知道为什么,今天还试了一下1.12.1和1.14.1两个版本的,都是提示密码文件的要设成单用户并只读,我已经如此设置了安全标签,但仍不能解决问题,所以决定在Eclipse里面试一下,多次失败后,终于成功启动了Heritrix! ...

2008-11-05 16:36:12 119

原创 主题:使用开源组件搭建搜索引擎

//http://www.iteye.com/topic/93119在开发中小型搜索引擎的过程中,我使用由Java开发的开源软件:jspider,htmlparser,lucence,IKAnalyzer,下面我一一道来。lucence很著名啦,不必多说,我写的这个引擎就是在它自带的demo基础上重构的。jspider顾名思义,是一个用Java开发的爬虫。htm...

2008-11-04 08:40:15 185

原创 How to get IOleSite interface of the WebBrowser in

How to get IOleSite interface of the WebBrowser in an ActiveX control //From http://www.cnblogs.com/jonnyyu/archive/2004/02/14/1248.html//based on Q172763 HOWTO: Retrieve the Top-Level IWebBrowser...

2008-11-03 20:00:05 139

原创 Spring的jar包解析

Spring的jar包解析关键字: spring的jar包解析 摘自: http://heilwolf.iteye.com/blog/171387下载的spring包中文件及各种包众多,在项目中往往只有部分是我们必须的,如果不清楚什么时候需要什么包的话,看看下面就知道了。 aspectj目录下是在Spring框架下使用aspectj的源代码和测试程序文件。Aspectj是...

2008-10-19 15:47:24 95

原创 垂直搜索引擎

来源:http://www.blogjava.net/zhouxing/archive/2007/12/14/167864.html垂直搜索引擎 垂直搜索引擎是相对通用搜索引擎的信息量大、查询不准确、深度不够等提出来的新的搜索引擎服务模式,通过针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。其特点就是“专、精、深”,且具有行业色彩,相比较通用搜索引...

2008-10-17 15:10:00 124

原创 heritrix的启动与设置收藏

heritrix的启动与设置收藏新一篇: EPC901安装XP | 旧一篇: Heritrix使用笔记——Heritrix运行脚本转自http://hi.baidu.com/syimiaoa/blog/item/999e29f7934cdd26720eec84.html,很好的介绍了heritrix的启动与设置初步学习了Heritrix,这个网络小爬虫,以下是对其运行和任务设...

2008-10-17 14:43:35 143

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除