jsoup新闻爬虫

最新推荐文章于 2022-07-05 15:44:17 发布

North_Spark

最新推荐文章于 2022-07-05 15:44:17 发布

阅读量366

点赞数

分类专栏：功能技术应用文章标签：新闻 jsoup网络爬虫

本文链接：https://blog.csdn.net/diyu122222/article/details/73277805

版权

功能技术应用专栏收录该内容

8 篇文章 0 订阅

订阅专栏

准备

jsoup-1.7.2.jar

jsoup中文API.docx(网上找)

工具类
JsoupTest.java

package newPaper;

import java.io.IOException;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class JsoupTest {
    /**
     * 测试
     * 
     * @param args
     * @throws Exception
     */
    public static void main(String[] args) throws Exception {
        // getWuMaoW();
        getNeiRong("http://news.ces.cn/huanbao/huanbaopinglun/20170505/123665_1.shtml");
    }

    // 获取指定网上的文章内容
    public static void getNeiRong(String url) {
        // String url = "http://www.ces.cn";
        Document doc = null;
        try {
            doc = Jsoup.connect(url).get();
            // first 为获取第一个元素
            Element first2 = doc
                    .getElementsByAttributeValue("class", "content").first();

            // 获取标题
            Element first = first2.getElementsByTag("h1").first();
            String title = first.text();
            System.out.println("标题：" + title);

            Element first3 = first2.getElementsByClass("content_nr").first();
            String ptext = first3.text();
            System.out.println(ptext);
        } catch (IOException e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        }
    }

    // 获取指定网站上的 文章标题
    // 标题：正确计量碳排放对应对气候变化意义重大 
    // 链接：http://news.ces.cn/huanbao/huanbaopinglun/20170505/123665_1.shtml
    // 标题：美媒称中国将赢得新能源战争：美国悄然“让出”优势地位
    // 链接：http://news.ces.cn/xinnengyuan/xinnengyuanguoji/20170504/123664_1.shtml
    // 标题：关于征求《公共建筑节能改造节能量核定导则 
    // 链接：http://news.ces.cn/jianzhu/jianzhuzhengce/20170425/123662_1.shtml
    // 标题：重大突破：二氧化碳“变”汽油成真
    // 链接：http://news.ces.cn/qiche/qichejishu/20170505/123656_1.shtml
    // 标题：发改委发布节能标准体系建设方案 
    // 链接：http://news.ces.cn/zonghe/zonghezhengce/20170207/123154_1.shtml
    // 标题：能源互联网将成多能互补未来的发展趋势
    // 链接：http://news.ces.cn/zonghe/zonghezhengce/20170425/123601_1.shtml
    // 标题：两部委：全面推进城乡建筑节能绿色发展 
    // 链接：http://news.ces.cn/jianzhu/jianzhubaodao/20161226/122765_1.shtml
    // 标题：陈吉宁：大气、水、土“三大战役”怎么打？
    // 链接：http://news.ces.cn/huanbao/huanbaohuati/20170426/123576_1.shtml
    public static void getWuMaoW() {
        String url = "http://www.ces.cn";
        Document doc = null;
        try {
            doc = Jsoup.connect(url).get();
            // 根据属性 , 进行选择筛选
            Elements listDiv = doc.getElementsByAttributeValue("class",
                    "headline");

            for (Element element : listDiv) {
                Elements texts1 = element.getElementsByAttribute("href");
                for (Element text : texts1) {
                    String ptext = text.text();
                    String attr = text.attr("href");
                    System.out.println("标题：" + ptext);
                    System.out.println("链接：" + attr);
                }
            }
        } catch (IOException e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        }
    }

}