Jsoup|是什么？怎么用？

最新推荐文章于 2023-07-17 16:58:52 发布

还是这个瘦子

最新推荐文章于 2023-07-17 16:58:52 发布

阅读量1.3k

点赞数

我是最近接触到Jsoup的，是在公司的项目中！之前没有接触到爬虫一类的数据交互方式，今天写下这篇文章是为自己复习使用Jsoup，也望大家看到之后可以共同进步！

毕竟我是一个菜鸟！

Jsoup是解析HTML信息的爬虫技术，非常方便，在项目中加入jar包之后，调用API就可以满足需求！

1.Jsoup.parse解析HTML字符串，如Jsoup.parse("<html><head><title>Firstparse</title></head>")；

2.Jsoup.connect解析url网站地址，如Jsoup.connect(http://www.baidu.com).get())；

3.基本Jsoup需要设置的以下几项：

Document doc = Jsoup.connect("http://www.baidu.com/")
.data("query", "Java") // 请求参数
.userAgent("I ’ m jsoup") // 设置 User-Agent
.cookie("auth", "token") // 设置 cookie
.timeout(5000) // 设置连接超时时间
.post(); // 使用 POST 方法访问 URL

4.写入一段代码，通过“索引”的方式取到数据

<li class="dn on" data-dn="7d1">
  <h1>今天</h1>
  <h2>8日</h2>
  <big class="jpg50 d04"></big>
  <big class="jpg50 n04"></big>    
  <p class="wea" title="雷阵雨">雷阵雨</p>
  <p class="tem tem1"> <span>33</span><i>°C</i> </p>
  <p class="tem tem2"> <span>25</span><i>°C</i> </p>
  <p class="win">
    <em>
      <span title="无持续风向" class=""></span>
      <span title="无持续风向" class=""></span>
    </em>
    <i>微风</i>
  </p>
  <div class="slid"></div>
</li>

 1  package com.zjm.www.test;
 2 
 3 import java.io.IOException;
 4 
 5 import org.jsoup.Jsoup;
 6 import org.jsoup.nodes.Document;
 7 import org.jsoup.select.Elements;
 8 
 9 public class TestJsoup {
10     
11     public  Document getDocument (String url){
12         try {
13             return Jsoup.connect(url).get();
14         } catch (IOException e) {
15             e.printStackTrace();
16         }
17         return null;
18     }
19 
20     public static void main(String[] args) {
21         TestJsoup t = new TestJsoup();
22         Document doc = t.getDocument("http://www.weather.com.cn/html/weather/101280101.shtml");
23         // 获取目标HTML代码
24         Elements elements1 = doc.select("[class=dn on][data-dn=7d1]");
25         // 今天
26         Elements elements2 = elements1.select("h1");
27         String today = elements2.get(0).text();
28         System.out.println(today);
29         // 几号
30         Elements elements3 = elements1.select("h2");
31         String number = elements3.get(0).text();
32         System.out.println(number);
33         // 是否有雨
34         Elements elements4 = elements1.select("[class=wea]");
35         String rain = elements4.get(0).text();
36         System.out.println(rain);
37         // 高的温度
38         Elements elements5 = elements1.select("span");
39         String highTemperature = elements5.get(0).text()+"°C";
40         System.out.println(highTemperature);
41         // 低的温度
42         String lowTemperature = elements5.get(1).text()+"°C";
43         System.out.println(lowTemperature);
44         // 风力
45         Elements elements6 = elements1.select("i");
46         String wind = elements6.get(2).text();
47         System.out.println(wind);
48     }
49 }

5.解析的java代码：

（1）审查网页元素后发现，我们要的内容在上面的目标HTML代码中，在整个网页中是在 class="dn on" data-dn="7d1" 的 <li> 中

（2）“今天” 两字在 <h1></h1> 中

（3）“8日” 两字在 <h2></h2> 中

（4）“雷阵雨” 三字在 class="wea" 中

（5）“33” 在第一个 <span> 中

（6）“25” 在第二个 <span> 中

（7）“微风” 两字在第三个 <i> 中

在其中获取数据源的方法有三种：

（1）从一段 html代码字符串获取：Document doc = Jsoup.parse(html);

（2）从一个 url 获取：Document doc = Jsoup.connect("http://baidu,com").get();

（3）从一个 html文件获取Document doc = Jsoup.parse(input,"UTF_8","http://baidu,com");File input = new File("/up/update.html");

我们采取了第二种方法，从url中获取

6.案例解析

a，通过标签头，在div中继续筛选数据。可能会找到很多的数据，这里会用到循环。见eg1。

 
 //eg1:解析百度音乐 
            Document doc = Jsoup.connect("http://list.mp3.baidu.com/top/singer/A.html").get(); 
            Element singerListDiv = doc.getElementsByAttributeValue("class", "content").first(); 
            Elements links = singerListDiv.getElementsByTag("a"); 
             
            for (Element link: links) { 
                String linkHref = link.attr("href"); 
                String linkText = link.text().trim(); 
                System.out.println(linkHref);  
            }

b，通过标签名，在div中筛选数据，选中此标签内的所有数据。见eg2

 
 //eg2:解析万年历 
        Document doc = Jsoup.connect("http://www.nongli.com/item4/index.asp?dt=2012-03-03").get(); 
        Element infoTable = doc.getElementsByAttributeValue("class", "table002").first(); 
        Elements tableLineInfos = infoTable.select("tr"); 
        for (Element lineInfo : tableLineInfos) { 
            String lineInfoContent = lineInfo.select("td").last().text().trim(); 
            System.out.println("jsoup is :" + lineInfoContent); 
        }

c，限定筛选条件。如果eg5

 
 //eg5:查找html元素 
        File input = new File("/tmp/input.html"); 
        Document doc = Jsoup.parse(input, "UTF-8", "http://www.oschina.net/"); 
        Elements links = doc.select("a[href]"); // 链接 
        Elements pngs = doc.select("img[src$=.png]"); // 所有 png 的图片 
        Element masthead = doc.select("div.masthead").first();// div with class=masthead 
        Elements resultLinks = doc.select("h3.r > a"); // direct a after h3

此处不能直接单独获得三组数据，获得的是总的三个数据。可通过正则表达式分解

获取数据即element.text()即可获得相关数据

示例代码：

 
 package com.mike.activity; 
 
import java.io.File; 
import java.io.IOException; 
 
import org.jsoup.Connection; 
import org.jsoup.Jsoup; 
import org.jsoup.nodes.Document; 
import org.jsoup.nodes.Element; 
import org.jsoup.select.Elements; 
 
import android.app.Activity; 
import android.os.Bundle; 
import android.util.Log; 
import android.view.View; 
import android.widget.TextView; 
 
public class JsoupDemoActivity extends Activity { 
    /** Called when the activity is first created. */ 
     
    private StringBuilder sb ; 
     
     
    @Override 
    public void onCreate(Bundle savedInstanceState) { 
        super.onCreate(savedInstanceState); 
        setContentView(R.layout.main); 
         
        sb = new StringBuilder(); 
        TextView textView = (TextView) findViewById(R.id.textView1); 
         
        try { 
//          //eg1:解析百度音乐 
//          Document doc = Jsoup.connect("http://list.mp3.baidu.com/top/singer/A.html").get(); 
//          Element singerListDiv = doc.getElementsByAttributeValue("class", "content").first(); 
//          Elements links = singerListDiv.getElementsByTag("a"); 
//           
//          for (Element link: links) { 
//              String linkHref = link.attr("href"); 
//              String linkText = link.text().trim(); 
//              System.out.println(linkHref);  
//          } 
//           
//           
//          //eg2:解析万年历 
//          Document doc = Jsoup.connect("http://www.nongli.com/item4/index.asp?dt=2012-03-03").get(); 
//          Element infoTable = doc.getElementsByAttributeValue("class", "table002").first(); 
//          Elements tableLineInfos = infoTable.select("tr"); 
//          for (Element lineInfo : tableLineInfos) { 
//              String lineInfoContent = lineInfo.select("td").last().text().trim(); 
//              System.out.println("jsoup is :" + lineInfoContent); 
//          } 
             
             
            //eg3:解析指定段落的内容----注意此代码中的语法：<div class="artHead"> 
//          Document doc = Jsoup.connect("http://passover.blog.51cto.com").get(); 
//          Elements divs = doc.select("div.artHead"); 
//          for (Element div: divs) { 
//              System.out.println(div.select("h3[class=artTitle]")); 
//          } 
             
            //eg4： 
//          Document doc = Jsoup.connect("http://passover.blog.51cto.com").get(); 
             
             
             
//          //eg5:查找html元素 
            File input = new File("/tmp/input.html"); 
            Document doc = Jsoup.parse(input, "UTF-8", "http://www.oschina.net/"); 
            Elements links = doc.select("a[href]"); // 链接 
            Elements pngs = doc.select("img[src$=.png]"); // 所有 png 的图片 
            Element masthead = doc.select("div.masthead").first();// div with class=masthead 
            Elements resultLinks = doc.select("h3.r > a"); // direct a after h3 
             
             
//          //test 
//          File input = new File("D:/test.html");  
//           Document doc = Jsoup.parse(input,"UTF-8","http://www.oschina.net/");  
             
             
            /* 
             * 项目数据准备 
             */ 
             
            //eg5：万年历：http://www.zdic.net/nongli/2012-3-7.htm 
             
            //data1：dayFav（宜） 
//          Document doc = Jsoup.connect("http://www.zdic.net/nongli/2012-3-7.htm").get(); 
//          Element dayFav = doc.getElementsByAttributeValue("class", "ly2").first(); 
//          Elements dayFavItems = dayFav.getElementsByTag("a"); 
//          for (Element dayFavItem:dayFavItems) { 
//              System.out.println(dayFavItem.text()); 
//          } 
             
            //data2：dayUnfav（忌） 
//          Element dayUnfav = doc.getElementsByAttributeValue("class", "lj2").first(); 
//          Elements dayUnfavItems = dayUnfav.getElementsByTag("a"); 
//          for (Element dayUnfavItem:dayUnfavItems) { 
//              System.out.println(dayUnfavItem.text()); 
//          } 
             
            //data3:taiSheng(胎神) 
//          Element taiSheng = doc.getElementsByAttributeValue("class", "lts2").first(); 
//          System.out.println(taiSheng.text()); 
             
            //data4:chong sha(冲煞信息) 
//          Element chong = doc.getElementsByAttributeValue("class", "lcs").first(); 
//          Element sha = doc.getElementsByAttributeValue("class", "lcs").get(1); 
//          System.out.println(chong.text()); 
//          System.out.println(sha.text()); 
             
            //data5:zhengChong(正冲)和zhiXing（值星） 
//          Element zhengChong = doc.getElementsByAttributeValue("class", "lzc2").first(); 
//          Element zhiXing = doc.getElementsByAttributeValue("class", "lzx2").first(); 
//          System.out.println(zhengChong.text()); 
//          System.out.println(zhiXing.text()); 
                         
             
            //data6：godFav（吉神宜趋） 
//          Element godUnfav = doc.getElementsByAttributeValue("class", "js2").first(); 
//          System.out.println(godUnfav.text()); 
             
            //data7：godUnfav（凶神宜忌） 
//          Element godFav = doc.getElementsByAttributeValue("class", "xs2").first(); 
//          System.out.println(godFav.text()); 
             
            //data8：pengZuBaiJi（彭祖百忌） 
//          Element pengZuBaiJi = doc.getElementsByAttributeValue("class", "pz2").first(); 
//          System.out.println(pengZuBaiJi.text()); 
             
            //data9：wuXing（五行） 
//          Element wuXing = doc.getElementsByAttributeValue("class", "wuh2").first(); 
//          System.out.println(wuXing.text()); 
             
             
             
        } catch (IOException e) { 
            // TODO Auto-generated catch block 
            e.printStackTrace(); 
        } 
         
         
    } 
}

7.项目局部代码实现

1、Rule.java用于指定查询url,method,params等

package com.zhy.spider.rule;
/**
* 规则类
*
* @author zhy
*
*/
public class Rule
{
/**
* 链接
*/
private String url;
/**
* 参数集合
*/
private String[] params;
/**
* 参数对应的值
*/
private String[] values;
/**
* 对返回的HTML，第一次过滤所用的标签，请先设置type
*/
private String resultTagName;
/**
* CLASS / ID / SELECTION
* 设置resultTagName的类型，默认为ID
*/
private int type = ID ;
/**
*GET / POST
* 请求的类型，默认GET
*/
private int requestMoethod = GET ;
public final static int GET = 0 ;
public final static int POST = 1 ;
public final static int CLASS = 0;
public final static int ID = 1;
public final static int SELECTION = 2;
public Rule()
{
}
public Rule(String url, String[] params, String[] values,
String resultTagName, int type, int requestMoethod)
{
super();
this.url = url;
this.params = params;
this.values = values;
this.resultTagName = resultTagName;
this.type = type;
this.requestMoethod = requestMoethod;
}
public String getUrl()
{
return url;
}
public void setUrl(String url)
{
this.url = url;
}
public String[] getParams()
{
return params;
}
public void setParams(String[] params)
{
this.params = params;
}
public String[] getValues()
{
return values;
}
public void setValues(String[] values)
{
this.values = values;
}
public String getResultTagName()
{
return resultTagName;
}
public void setResultTagName(String resultTagName)
{
this.resultTagName = resultTagName;
}
public int getType()
{
return type;
}
public void setType(int type)
{
this.type = type;
}
public int getRequestMoethod()
{
return requestMoethod;
}
public void setRequestMoethod(int requestMoethod)
{
this.requestMoethod = requestMoethod;
}
}

这个规则类定义了我们查询过程中需要的所有信息，方便我们的扩展，以及代码的重用，我们不可能针对每个需要抓取的网站写一套代码

2、需要的数据对象，目前只需要链接，LinkTypeData.java

package com.zhy.spider.bean;
public class LinkTypeData
{
private int id;
/**
* 链接的地址
*/
private String linkHref;
/**
* 链接的标题
*/
private String linkText;
/**
* 摘要
*/
private String summary;
/**
* 内容
*/
private String content;
public int getId()
{
return id;
}
public void setId(int id)
{
this.id = id;
}
public String getLinkHref()
{
return linkHref;
}
public void setLinkHref(String linkHref)
{
this.linkHref = linkHref;
}
public String getLinkText()
{
return linkText;
}
public void setLinkText(String linkText)
{
this.linkText = linkText;
}
public String getSummary()
{
return summary;
}
public void setSummary(String summary)
{
this.summary = summary;
}
public String getContent()
{
return content;
}
public void setContent(String content)
{
this.content = content;
}
}

3、核心的查询类：ExtractService.java

package com.zhy.spider.core;
import java.io.IOException;
import java.util.ArrayList;
import java.util.List;
import java.util.Map;
import javax.swing.plaf.TextUI;
import org.jsoup.Connection;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import com.zhy.spider.bean.LinkTypeData;
import com.zhy.spider.rule.Rule;
import com.zhy.spider.rule.RuleException;
import com.zhy.spider.util.TextUtil;
/**
*
* @author zhy
*
*/
public class ExtractService
{
/**
* @param rule
* @return
*/
public static List<LinkTypeData> extract(Rule rule)
{
// 进行对rule的必要校验
validateRule(rule);
List<LinkTypeData> datas = new ArrayList<LinkTypeData>();
LinkTypeData data = null;
try
{
/**
* 解析rule
*/
String url = rule.getUrl();
String[] params = rule.getParams();
String[] values = rule.getValues();
String resultTagName = rule.getResultTagName();
int type = rule.getType();
int requestType = rule.getRequestMoethod();
Connection conn = Jsoup.connect(url);
// 设置查询参数
if (params != null)
{
for (int i = 0; i < params.length; i++)
{
conn.data(params[i], values[i]);
}
}
// 设置请求类型
Document doc = null;
switch (requestType)
{
case Rule.GET:
doc = conn.timeout(100000).get();
break;
case Rule.POST:
doc = conn.timeout(100000).post();
break;
}
//处理返回数据
Elements results = new Elements();
switch (type)
{
case Rule.CLASS:
results = doc.getElementsByClass(resultTagName);
break;
case Rule.ID:
Element result = doc.getElementById(resultTagName);
results.add(result);
break;
case Rule.SELECTION:
results = doc.select(resultTagName);
break;
default:
//当resultTagName为空时默认去body标签
if (TextUtil.isEmpty(resultTagName))
{
results = doc.getElementsByTag("body");
}
}
for (Element result : results)
{
Elements links = result.getElementsByTag("a");
for (Element link : links)
{
//必要的筛选
String linkHref = link.attr("href");
String linkText = link.text();
data = new LinkTypeData();
data.setLinkHref(linkHref);
data.setLinkText(linkText);
datas.add(data);
}
}
} catch (IOException e)
{
e.printStackTrace();
}
return datas;
}
/**
* 对传入的参数进行必要的校验
*/
private static void validateRule(Rule rule)
{
String url = rule.getUrl();
if (TextUtil.isEmpty(url))
{
throw new RuleException("url不能为空！");
}
if (!url.startsWith("http://"))
{
throw new RuleException("url的格式不正确！");
}
if (rule.getParams() != null && rule.getValues() != null)
{
if (rule.getParams().length != rule.getValues().length)
{
throw new RuleException("参数的键值对个数不匹配！");
}
}
}
}

4、异常类：RuleException.java

package com.zhy.spider.rule;
public class RuleException extends RuntimeException
{
public RuleException()
{
super();
// TODO Auto-generated constructor stub
}
public RuleException(String message, Throwable cause)
{
super(message, cause);
// TODO Auto-generated constructor stub
}
public RuleException(String message)
{
super(message);
// TODO Auto-generated constructor stub
}
public RuleException(Throwable cause)
{
super(cause);
// TODO Auto-generated constructor stub
}
}

5、测试类：这里使用了两个网站进行测试，采用了不同的规则view plain cop

package com.zhy.spider.test;
import java.util.List;
import com.zhy.spider.bean.LinkTypeData;
import com.zhy.spider.core.ExtractService;
import com.zhy.spider.rule.Rule;
public class Test
{
@org.junit.Test
public void getDatasByClass()
{
Rule rule = new Rule(
"http://www1.sxcredit.gov.cn/public/infocomquery.do?method=publicIndexQuery",
new String[] { "query.enterprisename","query.registationnumber" }, new String[] { "兴网","" },
"cont_right", Rule.CLASS, Rule.POST);
List<LinkTypeData> extracts = ExtractService.extract(rule);
printf(extracts);
}
@org.junit.Test
public void getDatasByCssQuery()
{
Rule rule = new Rule("http://www.11315.com/search",
new String[] { "name" }, new String[] { "兴网" },
"div.g-mn div.con-model", Rule.SELECTION, Rule.GET);
List<LinkTypeData> extracts = ExtractService.extract(rule);
printf(extracts);
}
public void printf(List<LinkTypeData> datas)
{
for (LinkTypeData data : datas)
{
System.out.println(data.getLinkText());
System.out.println(data.getLinkHref());
System.out.println("***********************************");
}
}
}