准备
jsoup-1.7.2.jar
jsoup中文API.docx(网上找)
工具类
JsoupTest.java
package newPaper;
import java.io.IOException;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
public class JsoupTest {
/**
* 测试
*
* @param args
* @throws Exception
*/
public static void main(String[] args) throws Exception {
// getWuMaoW();
getNeiRong("http://news.ces.cn/huanbao/huanbaopinglun/20170505/123665_1.shtml");
}
// 获取指定网上的文章内容
public static void getNeiRong(String url) {
// String url = "http://www.ces.cn";
Document doc = null;
try {
doc = Jsoup.connect(url).get();
// first 为获取第一个元素
Element first2 = doc
.getElementsByAttributeValue("class", "content").first();
// 获取标题
Element first = first2.getElementsByTag("h1").first();
String title = first.text();
System.out.println("标题:" + title);
Element first3 = first2.getElementsByClass("content_nr").first();
String ptext = first3.text();
System.out.println(ptext);
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
// 获取指定网站上的 文章标题
// 标题:正确计量碳排放对应对气候变化意义重大
// 链接:http://news.ces.cn/huanbao/huanbaopinglun/20170505/123665_1.shtml
// 标题:美媒称中国将赢得新能源战争:美国悄然“让出”优势地位
// 链接:http://news.ces.cn/xinnengyuan/xinnengyuanguoji/20170504/123664_1.shtml
// 标题:关于征求《公共建筑节能改造节能量核定导则
// 链接:http://news.ces.cn/jianzhu/jianzhuzhengce/20170425/123662_1.shtml
// 标题:重大突破:二氧化碳“变”汽油成真
// 链接:http://news.ces.cn/qiche/qichejishu/20170505/123656_1.shtml
// 标题:发改委发布节能标准体系建设方案
// 链接:http://news.ces.cn/zonghe/zonghezhengce/20170207/123154_1.shtml
// 标题:能源互联网将成多能互补未来的发展趋势
// 链接:http://news.ces.cn/zonghe/zonghezhengce/20170425/123601_1.shtml
// 标题:两部委:全面推进城乡建筑节能绿色发展
// 链接:http://news.ces.cn/jianzhu/jianzhubaodao/20161226/122765_1.shtml
// 标题:陈吉宁:大气、水、土“三大战役”怎么打?
// 链接:http://news.ces.cn/huanbao/huanbaohuati/20170426/123576_1.shtml
public static void getWuMaoW() {
String url = "http://www.ces.cn";
Document doc = null;
try {
doc = Jsoup.connect(url).get();
// 根据属性 , 进行选择筛选
Elements listDiv = doc.getElementsByAttributeValue("class",
"headline");
for (Element element : listDiv) {
Elements texts1 = element.getElementsByAttribute("href");
for (Element text : texts1) {
String ptext = text.text();
String attr = text.attr("href");
System.out.println("标题:" + ptext);
System.out.println("链接:" + attr);
}
}
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
}