网络蜘蛛程序的设计与实现
文章平均质量分 94
东东
这个作者很懒,什么都没留下…
展开
-
网络蜘蛛程序的设计与实现 (一)前言
本文是我在学习了C语言之后在Linux下的一次实习式的开发练习。肯定会有许多不成熟的地方,还请各位大虾莅临指导。什么时网络蜘蛛。 网络蜘蛛即Web Spider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址原创 2009-10-09 08:48:00 · 1145 阅读 · 0 评论 -
网络蜘蛛程序的设计与实现(二)网页抓取策略
网页的抓取策略可以分为深度优先、广度优先和最佳优先三种。深度优先在很多情况下会导致爬虫的陷入(trapped)问题,目前常见的是广度优先和最佳优先方法。广度优先搜索策略广度优先搜索策略是指在抓取过程中,在完成当前层次的搜索后,才进行下一层次的搜索。该算法的设计和实现相对简单。在目前为覆盖尽可能多的网页,一般使用广度优先搜索方法。其基本思想是认为与初始URL在一定链接距离内的网页具有主题相关原创 2009-10-10 16:27:00 · 2869 阅读 · 0 评论 -
网络蜘蛛程序的设计与实现(三)网页分析算法
网页分析算法可以归纳为基于网络拓扑、基于网页内容和基于用户访问行为三种类型基于网络拓扑的分析算法基于网页之间的链接,通过已知的网页或数据,来对与其有直接或间接链接关系的对象(可以是网页或网站等)作出评价的算法。又分为网页粒度、网站粒度和网页块粒度这三种。 1 网页(Webpage)粒度的分析算法 PageRank和HITS算法是最常见的链接分析算法,两者都是通过对网转载 2009-10-10 16:35:00 · 1926 阅读 · 0 评论 -
网络蜘蛛程序的设计与实现(四)PageRank揭密
PageRank 的原理类似于科技论文中的引用机制:谁的论文被引用次数多,谁就是权威。说的更白话一点:张三在谈话中提到了张曼玉,李四在谈话中也提到张曼玉,王五在谈话中还提到张曼玉,这就说明张曼玉一定是很有名的人。在互联网上,链接就相当于“引用”,在B网页中链接了A,相当于B在谈话时提到了A,如果在C、D、 E、F中都链接了A,那么说明A网页是最重要的,A网页的PageRank值也就最高。转载 2009-10-10 16:43:00 · 1086 阅读 · 0 评论 -
HTTP协议详解
引言 HTTP是一个属于应用层的面向对象的协议,由于其简捷、快速的方式,适用于分布式超媒体信息系统。它于1990年提出,经过几年的使用与发展,得到不断地完善和扩展。目前在WWW中使用的是HTTP/1.0的第六版,HTTP/1.1的规范化工作正在进行之中,而且HTTP-NG(Next Generation of HTT转载 2009-12-21 20:37:00 · 640 阅读 · 0 评论