网络编程——URL读取网页数据

本文实现抓取链接网页内容:【http://blog.csdn.net/weixin_36146275/article/details/54605784】此链接是博主的博客,用来做个例子。


import java.io.IOException;
import java.io.InputStream;
import java.net.MalformedURLException;
import java.net.URL;
import java.net.URLConnection;
import java.util.Scanner;

public class URLConn {
	
	/**
	 * 获取网页链接中的所有内容
	 * @return
	 */
	public static String getContentFromUrl(){
		String content = "";
		try {
			//传入网页访问地址
			String address = "http://blog.csdn.net/weixin_36146275/article/details/54605784";
			URL url = new URL(address);
			URLConnection conn = url.openConnection();
			
			//添加一行,解决"403服务器拒绝访问"错误
			conn.setRequestProperty("User-Agent", "Mozilla/31.0 (compatible; MSIE 10.0; Windows NT; DigExt)");
			
			//获取网页输入流
			InputStream is = conn.getInputStream();
			//设置流的编码格式
			Scanner s = new Scanner(is , "UTF-8");
			//一行一行拼接流信息
			while(s.hasNextLine()){
				content += s.nextLine()+"\n";
			}
			//关闭Scanner、InputStream
			s.close();
			is.close();
		} catch (MalformedURLException e) {
			e.printStackTrace();
		} catch (IOException e) {
			e.printStackTrace();
		}
		return content;
	}
	
	/**
	 * 计算截取网页内容起始位置,并截取。
	 * @param content
	 * @return
	 */
	public static String getSPFromContent(String content){
		String sp = "";
		//开始位置
		int beginIdex = content.indexOf("<div id=\"article_details\" class=\"details\">");
		//结束位置
		int endIndex = content.indexOf("<div id=\"suggest\"");
		sp = content.substring(beginIdex, endIndex);
		return sp;
	}
	
	public static void main(String[] args) {
		String content = getContentFromUrl();
		String sp = getSPFromContent(content);
		System.out.println(sp);
	}

}


截取结果如下:截取的内容是html格式的数据,我们可以将其转换成看得懂的网页


使用html编辑工具打开就看到正常的网页了



  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值