Java--实现网络爬虫抓取RSS新闻(1)网络爬虫详解
网络爬虫定义
网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。
可以更形象的理解:网络相当于一个巨大的蜘蛛网,每个蜘蛛丝的交叉点就是一个资源(URI),爬虫这张巨大的网上爬取需要的资源后,通过一定的机制和容器进行存储。
网络爬虫原理
网络爬虫的基本原理可以用一张经典的图概括:
原创
2015-05-17 21:26:24 ·
4529 阅读 ·
0 评论