JAVA在线抓取网页中的元素的例子（使用JSoup包进行解析）

最新推荐文章于 2023-05-27 14:38:34 发布

置顶 haha_mingg

最新推荐文章于 2023-05-27 14:38:34 发布

阅读量7.3k

点赞数

分类专栏： J2SE基础学习文章标签： java exception string html redirect url

本文链接：https://blog.csdn.net/haha_mingg/article/details/7918626

版权

J2SE基础学习专栏收录该内容

20 篇文章 0 订阅

订阅专栏

有时候获取数据的时候，无数据源，或者对方不提拱接口和数据库，只提拱一个网站给我们充当数据源，这时候我们就要对网页中的html元素进行抓取，并同时解析，过滤掉我们不需要的数据，得到我们想要的数据，当然我们也可以使用目前主流开源爬虫框架nutch,spider.但如果需求不是很复杂的情况下，比如只爬取小部分网页的情况下，我们就自已写个爬虫类就可以满足我们的需求，以下是我参考网站资源和一些工具类，自已写的一个范例，如下所示：

首先我们抓取一个网页.比如网页的形式为：

<html>
   <head><title>First parse</title></head>
   <body>
    <p>Parsed HTML into a doc.</p> 
    <p>Parsed HTMfdaL into a dodasc.</p> 
   </body>
</html>

比如它的网站为: http://demo.blog.com。

下面是写的抓取和解析的过程

1工具类 ClawerClient

	/**
	 * 当有些网页中存在一些嵌套的redirect连接时，它就会报Server redirected too many times这样的错误，
	 * 这是因为此网页内部又有一些代码是转向其它网页的，循环过多导致程序出错。如果只想抓取本URL中的网页内容，
	 * 而不愿意让它有其它 的网页跳转，可以用以下的代码。
	 * @param myurl
	 * @throws Exception
	 */
	
	@SuppressWarnings("static-access")
	public static String clawer2(String myurl) throws Exception{
		URL urlmy = new URL(myurl);
		HttpURLConnection con = (HttpURLConnection) urlmy.openConnection();
		con.setFollowRedirects(true);
		con.setInstanceFollowRedirects(false);
		con.connect();
		
		BufferedReader br = new BufferedReader(new InputStreamReader(con.getInputStream(),"UTF-8"));
		String s = "";
		StringBuffer sb = new StringBuffer("");
		while ((s = br.readLine()) != null) {
		sb.append(s+"\r\n");
		
		}
        return sb.toString();
	}

2.抓取到了数据源之后，我使用JSoup包对它进行解析，JSoup的下载地址为：http://jsoup.org/cookbook/modifying-data/set-html
下面是一个简单的代码片断:

	//这里得到网页内容
			String htmlContent = ClawerClient.clawer2(url);
			
			//使用jSoup解析里头的内容
			//就像操作html doc文档对象一样操作网页中的元素
			Document doc = Jsoup.parse(htmlContent);
			Element body = doc.body();
                        Element span = body.select("p").first();

		        System.out.println(span.text());

就可以获取第一个p元素中的值为：
Parsed HTML into a doc.

当然还有一些比较常用的方法.详细请查看JSoup文档。

（完，待续....................................................................）