网络爬虫1

网络爬虫的原理与应用


        网路爬虫就是从互联网中的海量信息不断地抓取有用的信息.我们熟知的搜索引
擎的信息都来自这里.网络爬虫需要实现的基本功能是下载网页和对URL地址进行遍历

爬虫的基本原理


          如果把网页看成节点,网页之间的链接则可以看成边,那么,整个互联网则可看成是一

个特别巨大的非连通图.为了获取需要的网页,我们首先需要有一个初始化的URL列表,然后

根据这些列表访问网页.这时,有人可能就会问了,像Google或百度是怎么设置初始化的URL

列表的?一般来说,他们会把网站提交给分类目录,爬虫可以从开放式的分类目录抓取


页面获取模块


    根据URL来获取当前页面的内容,其实就是普通的I/O操作.


下面是示例代码:


import java.io.BufferedOutputStream;
import java.io.File;
import java.io.FileOutputStream;
import java.io.InputStream;
import java.net.URL;
import java.net.URLConnection;

public class DownLoadHTML {
	
	/*
	 * file:DownLoadHTML
	 * 作用:下载HTML文件
	 */
	
	
	/*
	 * function:downloadHTML
	 * @param src:需要下载的html页面的地址
	 * @param filePath:html源码存储的路径
	 * @param fileName:存储的文件名
	 */
	public static void downloadHTML(String src,String filePath,String 

fileName){
		
		try {
			URL url = new URL(src);
			URLConnection conn = url.openConnection();
			//设置超时
			conn.setConnectTimeout(10*1000);
			//防止屏蔽程序抓取
			conn.setRequestProperty("User-Agent"
					, "Mozilla/5.0 (Windows NT 6.1; 

rv:2.0.1) Gecko/20100101 Firefox/4.0.1");
			
			File dir = new File(filePath);
			//如果路径不存在,创建一个新的路径
			if(!dir.exists()){
				dir.mkdirs();
			}
			
			File file = new File(filePath+File.separator

+fileName);
			byte[] b = new byte[1024];
			//读取的长度
			
			InputStream in =  conn.getInputStream();
			int len = 0;
			FileOutputStream out = new FileOutputStream(file);
			BufferedOutputStream bf = new 

BufferedOutputStream(out);
		    while((len = in.read(b)) != -1){ 
		    	bf.write(b,0,len);
		    }
		    bf.flush();
		    bf.close();
		    out.close();
		    out.close();
		    in.close();
		    
		} catch (Exception e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		}
		
	}
	
	public static void main(String[] args){
		downloadHTML("http://www.csdn.net/","e:\

\download","test.html");
		System.out.println("下载完成!");
	}

}


以上代码是根据特定的URL下载页面.下节将介绍如何把下载的页面提取内容.

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值