网络蜘蛛基础件

转载 2006年06月14日 13:04:00
什么是网络蜘蛛呢?网络蜘蛛有什么用呢?    
    “网络蜘蛛”,学名Spider,这是一个自动程序,会自动地在互联网中搜索信息。一个典型的网络蜘蛛工作的方式,是查看一个页面,并从中找到相关信息,然后它再从该页面的所有链接中出发,继续寻找相关的信息,以此类推,直至穷尽。对网络蜘蛛的要求是能够快速、全面。    
    凡是需要积累信息的都需要蜘蛛,比如搜索引擎、情报的搜集、资料的收集、信息的收集。   
    互联网的迅速发展,导致了网上信息的爆炸性增长。要在如此浩瀚的信息海洋里快速、全面的收集信息,就不得不依靠网络蜘蛛的威力。
产品概述  
  *海量网络蜘蛛功能基础件简介
   实现网络蜘蛛的快速、全面是一件及其复杂的技术。海量网络蜘蛛基础件依托海量科技雄厚的中文信息处理技术,是海量科技推出的准确、高效、接口方便灵活的便于二次开发的软件包,以及为使软件包在目标系统中实现最优品质而提供的特定服务。其服务包括:目标系统架构咨询、辅助开发、技术培训、售后支持等,简称为网络蜘蛛基础件。
  *海量网络蜘蛛功能基础件应用前景
    作为搜索引擎的重要组成部分,网络蜘蛛基础件有着广泛的应用前景。主要应用领域如下:
    1 )搜索引擎:
   搜索引擎大致由三部分组成。第一部分是搜索器,就是网络蜘蛛的意思。第二部分是索引器。第三部分是面向用户的检索器。如果没有性能优越的网络蜘蛛就不可能实现一个卓越的搜索引擎。
   2 )信息积累 :    
   没有数据的支持就没有决策的方向。拥有海量的信息才能在此基础上进行分析。信息的积累主要应用于情报的搜集、资料的收集、信息的收集 。
产品技术特点  
   海量网络蜘蛛基础件是经过多年的开发与精练,具有以下特点:
    *下载的全,保证绝大多数可以下载
    1、静态链接,支持全路径、相对路径;
    2、可以直接取得URL的动态网页(CGI,ASP,PHP 等) ;
    3、支持JavaScript脚本;
    4、支持注册网站的下载;
    5、支持WWW认证网站的下载;
    6、支持经过简单编码的网站(URL编码);
    7、支持Flash网页的下载;
    8、可以自定义下载的文件的扩展名;
    9、支持自定义URL的下载;
    10、支持限制使用带宽,多线程,多任务;
    *更新的快
    提供多种更新机制,自定义更新和指定更新
    1、更新整个网站;
    2、只更新网站中部分网页;
    *下载准确
    1、能够识别错误页,空页,转向页等;
    2、对重复(网页的内容相同)的网页不会反复下载;

相关文章推荐

搜索引擎技术揭密:网络蜘蛛

(1) the original article seems to be here: http://www.enet.com.cn/article/2004/0718/A20040718325400....

网站与网络蜘蛛

网络蜘蛛需要抓取网页,不同于一般的访问,如果控制不好,则会引起网站服务器负担过重。今年4月,淘宝网( http://www.taobao.com )就因为雅虎搜索引擎的网络蜘蛛抓取其数据引起淘宝网服务...

C#2.0网络蜘蛛

C#2.0实现抓取网络资源的网络蜘蛛 如何使用C#2.0实现抓取网络资源的网络蜘蛛。使用这个程序,可以通过一个入口网址来扫描整个互联网的网址,并将这些扫描到的网址所指向的网络资源下载...

网络蜘蛛-搜狐博客批量下载(之一)

网上的鸟备份工具居然要收费,还是自己写吧。只针对sohu博客,其余博客类推,主要是分析博客链接组织和内容结构。 今天先针对单个博客来做点试验,以获取一篇URL已知的博客正文为目标: ...
  • maray
  • maray
  • 2012-02-03 23:54
  • 3193

网络蜘蛛--抓取一个网页的邮箱

技术:正则表达式+网络编程(URL)package cn.hncu.br;import java.io.BufferedReader; import java.io.FileNotFoundExcep...

搜索引擎(网络蜘蛛及搜索引擎基本原理)

2006-05-25网络蜘蛛及搜索引擎基本原理TAG:搜索相关搜索引擎的工作原理大致可以分为:  搜集信息:搜索引擎的信息搜集基本都是自动的。搜索引擎利用称为网络蜘蛛(spider)的自动搜索机器人程...

抢先式多线程网络蜘蛛

Win32 API 支持抢先式多线程网络,这是编写MFC网络蜘蛛非常有用的地方。SPIDER工程(程序)是一个如何用抢先式多线程技术实现在网上用网络蜘蛛/机器人聚集信息的程序。   该工程产生一...

网络蜘蛛采用三种策略来决定抓取网页的先后顺序

网络蜘蛛采用三种策略来决定抓取网页的先后顺序: 1:IP地址搜索策略、 2:广度优先策略: 3深度优先策略 所谓 IP 地址搜索策略,首先网络蜘蛛会获得一个起始的 IP ...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:深度学习:神经网络中的前向传播和反向传播算法推导
举报原因:
原因补充:

(最多只允许输入30个字)