Spider
akululu
这个作者很懒,什么都没留下…
展开
-
爬虫/蜘蛛程序的制作
问题是对某一网站或所有网站进行抓取,即下载所有网页。怎么实现呢?先将问题最小化(转化的思想,转化为小规模,可以解决的问题):如果只有一个网页,怎么下载?问题变地很简单,只要用WebClient/WebRequest(甚至OpenFileDialog都可以)打开Url地址,将数据流存入本地存储器的文件(以相应的扩展名作为扩展名)即可。示例代码如下:string BoardStream;//下载内容存...原创 2009-01-10 11:40:58 · 605 阅读 · 0 评论 -
URL消重-信息指纹
数学之美 系列十三 信息指纹及其应用2006年8月3日 上午 11:17:00<noscript></noscript>发表者:吴军,Google 研究员 任何一段信息文字,都可以对应一个不太长的随机数,作为区别它和其它信息的指纹(Fingerprint)。只要算法设计的好,任何两段信息的指纹都很难重复,就如同人类的指纹一样。信息指纹在加密、信息压缩和处理中有着广...原创 2009-01-13 14:40:05 · 272 阅读 · 0 评论 -
网络爬虫
public class Spider implements Runnable { private ArrayList urls; //URL列表 private HashMap indexedURLs; //已经检索过的URL列表 private int threads ; //初始化线程数 public static void main(Strin...原创 2009-01-13 15:46:11 · 161 阅读 · 0 评论