自娱自乐--爬虫java实践

编码没几年,以后估计也不会干码农的活了,但个人对编程实用性还是蛮感兴趣的,最近在网上搜罗资料时,发现一网站资源很丰富,萌生了想把每个游泳的链接资源搜罗起来的想法,索性现在毕业没啥事,我就动手琢磨了一两小时搞了个小爬虫把这些超链接资源扒下来了,当然我的功能还是蛮简单了,在这也不想写出专业性的东西了,就把自己写的原始源码贴出来跟大伙分享分享吧。

爬虫程序就是自动搜索获取内容的程序,我的需求就是弄个搜罗网页内容的小爬虫出来,也叫网络爬虫,把有用的超链接信息汇总起来。

网络爬虫原理简单点(我理解的)就是由给定的URL抓取对应网页中的内容,这个给定的URL可以是人为赋值的,也可以由爬虫本身自动解析网页内容获取的URL,你所需要抓取的网页内容则是通过正则表达式来判断, 而如何抓取就是网页数据流的实现过程了。所以一个小爬虫涉及的技术很基础,我就分类贴出鄙人的原始代码。

一、通过URL获取网页内容

	public StringBuffer getContext(String URLPath)
	{
		StringBuffer buffer= new StringBuffer();
		try {
			URL url = new URL(URLPath);
			URLConnection conn = url.openConnection(); 
			BufferedReader reader = new BufferedReader(new InputStreamReader(conn.getInputStream())); 
			String line = null; 
			while((line = reader.readLine()) != null) 
				buffer.append(line + "\n");
			
		} catch (MalformedURLException e) {
			e.printStackTrace();
		} catch (IOException e) {
			e.printStackTrace();
		}
		return buffer;
	}
二、解析网页内容
	/**
	 * 解析网页内容,返回所需的信息,可以是String型,此处是因实际需要返回map
	 * @param htmlDoc 网页内容
	 */
	public LinkedHashMap<String, String> urlDetector(String htmlDoc)
	{
		//key存放超链接显示名,value存放相对地址路径名
		LinkedHashMap<String, String> map = new LinkedHashMap<String, String>();
		final String patternString = "<[a|A].*</[a|A]>";    //获取所有超链接的源码片段
		
		Pattern pattern = Pattern.compile(patternString,Pattern.CASE_INSENSITIVE); 
		Matcher matcher = pattern.matcher(htmlDoc);
		while(matcher.find())
		{
			String tempURL=matcher.group();
			String temp = tempURL.replaceAll("href=\"(.*)\"\\s", "@$1@")  //将超链接的源码中的href=“XXX” 代码替换成@XXX@
							.replaceAll(">([^<>\\s]+)<","&$1&");   //将超链接的源码中的超链接文本显示的 代码替换成&XXX&
			if(temp.indexOf("@")!=-1)
				map.put(temp.split("&")[1], temp.split("@")[1]); 
		}
		return map;
	}

<span style="white-space:pre">		</span>/**
		 * 以下部分是本需求的特殊处理,贴出来方便以后自我翻看 
		 */
		//解析首页的内容,并分别访问这些超链接的网页,存入相应的文件
		HashMap<String, String> urlMap = t.urlDetector(stBuf.toString());
		StringBuffer buf1 = new StringBuffer();
		for(String keyName : urlMap.keySet() )
		{
			String urlName = urlMap.get(keyName);
			String uPath = UrlPath + urlName;
			if( !keyName.trim().isEmpty() && uPath.trim().matches("^.*htm((\\s*)|l)$") ) //  .matches(".*(htm)|.*(html)$")判断以htm或html结尾
			{
				System.out.println(keyName.trim() + "<<<<<<"+ uPath.trim() +">>>>>>>>>>");
				buf1.append(keyName + "\n");
				String BtStr = t.collectBTorOther(uPath, filePath + keyName + ".tmp");
				buf1.append(BtStr);
				buf1.append("-----------------------------------------------\n");
			}
		}

<span style="white-space:pre">	</span>/**
	 * 接上面,特殊处理
	 * @param uPath
	 * @param fPath
	 */
	public String collectBTorOther(String uPath, String fPath)
	{
		StringBuffer buf = this.getContext(uPath);
		this.writeToFile(fPath, buf);
		// 解析网页内容,返回需要收集的信息  
		final String patternBT = "http:[^>\"'<]*.torrent";
		StringBuffer rtBuf = new StringBuffer();
		
		Matcher mat = Pattern.compile(patternBT, Pattern.CASE_INSENSITIVE).matcher(buf);
		while(mat.find())
		{
			String tmStr =mat.group();
			rtBuf.append(tmStr.trim() + "\n");
		}
		return rtBuf.toString();
	}

三、将需要的部分存入本地

	public void writeToFile(String filePath, StringBuffer buffer)
	{
		File ff = new File(filePath);
		FileWriter document = null;
		try {
			document = new FileWriter(ff);
			document.append(buffer);
			document.flush();
			document.close();
		} catch (IOException e) {
			e.printStackTrace();
		}
	}


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值