jsoup 实现在自己的网站中抓取到其他网站对自己感兴趣的信息

最新推荐文章于 2020-12-02 09:05:16 发布

goodleiwei

最新推荐文章于 2020-12-02 09:05:16 发布

阅读量1.7k

点赞数

分类专栏：技术成就快乐 Utils 文章标签： import class java html 测试 jsp

本文链接：https://blog.csdn.net/goodleiwei/article/details/7359931

版权

技术成就快乐同时被 2 个专栏收录

94 篇文章 0 订阅

订阅专栏

Utils

48 篇文章 0 订阅

订阅专栏

有时候，我们看见到其他网站上，好的东西总想把它融入到自己的网站中，如何简洁、简单的将感兴趣的内容抓取过来了，别急下面将做详细介绍

1.首先你的到网上去下载到抓取网页信息所要用到的 jsoup.jar 包

2. 在必要的代码出加上核心代码，举两个例子(以中国天气预报网站为例http://www.weather.com.cn/forecast/，获取到该网站的天气预报地图)

1.纯java的测试，在控制台打印出获取的信息，在进行ssh整合时可以考虑使用

package com.geturl.info;

import java.io.IOException;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

/**
 * Java提取网页数据
 * @author Administrator
 *
 */
public class GetUrlInfo {

	public static void main(String[] args) throws IOException {
		org.jsoup.nodes.Document doc = Jsoup.connect("http://www.weather.com.cn/forecast/").get();//根据网址获取Document对象

		Elements els = doc.select(".weatherNetwork");//获取class为weatherNetwork的标记 ，返回符合条件的元素集合

		//迭代打印出获取到的数据

		for(int i=0;i<els.size();i++){
			Element el = els.get(i);
			System.out.println(el.html());
		}



	}
}

2.b/s模式的测试，在jsp界面上显示

index.jsp

  <a href="getWebInfo.jsp">获取指定网站的 感兴趣的信息 到自己网站</a>

getWebInfo.jsp

<%@ page language="java" contentType="text/html; charset=UTF-8"
    pageEncoding="UTF-8"%>
<%@ page import="org.jsoup.Jsoup"%>
<%@ page import="org.jsoup.nodes.Element"%>
<%@ page import="org.jsoup.select.Elements"%>
<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd">
<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
<title>getUrlInfo</title>
</head>
<body>
	<%
		org.jsoup.nodes.Document doc = Jsoup.connect("http://www.weather.com.cn/forecast/").get(); //根据网址获取Document对象
	    Elements els = doc.select(".weatherNetwork");//获取class为weatherNetwork的标记 ，返回符合条件的元素集合
	
	    for(int i=0;i<els.size();i++){
	    	Element el = els.get(i);
	    	System.out.println(el.html());
	 %>
	 	<pre>
	 		<%=el.html()%>
	 	</pre>
	 <%} %>
</body>
</html>