有时候,我们看见到其他网站上,好的东西总想把它融入到自己的网站中,如何简洁、简单的将感兴趣的内容抓取过来了,别急下面将做详细介绍
1.首先你的到网上去下载到 抓取网页信息所要用到的 jsoup.jar 包
2. 在必要的代码出加上核心代码,举两个例子(以中国天气预报网站为例http://www.weather.com.cn/forecast/,获取到该网站的天气预报地图)
1.纯java的测试,在控制台打印出获取的信息,在进行ssh整合时可以考虑使用
package com.geturl.info;
import java.io.IOException;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
/**
* Java提取网页数据
* @author Administrator
*
*/
public class GetUrlInfo {
public static void main(String[] args) throws IOException {
org.jsoup.nodes.Document doc = Jsoup.connect("http://www.weather.com.cn/forecast/").get();//根据网址获取Document对象
Elements els = doc.select(".weatherNetwork");//获取class为weatherNetwork的标记 ,返回符合条件的元素集合
//迭代打印出获取到的数据
for(int i=0;i<els.size();i++){
Element el = els.get(i);
System.out.println(el.html());
}
}
}
2.b/s模式的测试,在jsp界面上显示
index.jsp
<a href="getWebInfo.jsp">获取指定网站的 感兴趣的信息 到自己网站</a>
getWebInfo.jsp
<%@ page language="java" contentType="text/html; charset=UTF-8"
pageEncoding="UTF-8"%>
<%@ page import="org.jsoup.Jsoup"%>
<%@ page import="org.jsoup.nodes.Element"%>
<%@ page import="org.jsoup.select.Elements"%>
<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd">
<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
<title>getUrlInfo</title>
</head>
<body>
<%
org.jsoup.nodes.Document doc = Jsoup.connect("http://www.weather.com.cn/forecast/").get(); //根据网址获取Document对象
Elements els = doc.select(".weatherNetwork");//获取class为weatherNetwork的标记 ,返回符合条件的元素集合
for(int i=0;i<els.size();i++){
Element el = els.get(i);
System.out.println(el.html());
%>
<pre>
<%=el.html()%>
</pre>
<%} %>
</body>
</html>