JSoup解析HTML

package com.demo;

import java.io.File;
import java.io.IOException;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;

/**
 * @author yangluan
 * @ 程序使用Jsoup解析的利用的css 不是xpath
 * @date 2016-11-24 16:55:20
 */
public class TestJsoupXml {
    public static String getText() {
        Document doc =null;
        String text = new String();
        try {
            doc=Jsoup.parse(new File("D:/文件/智库网专家/XML/0.xml"), "UTF-8");
            String org = doc.select("#expert > div.pub_right > div.expert_content > p.thefirstp").text();
//            System.out.println("org="+org);
            String orgContent = doc.select("#expert > div.pub_right > div.expert_content > p:nth-child(2)").text();
//            System.out.println("orgContent="+orgContent);
            
            String bio = doc.select("#expert > div.pub_right > div.expert_content > p:nth-child(3)").text();
//            System.out.println("bio="+bio);
            String bioContent = doc.select("#expert > div.pub_right > div.expert_content > p:nth-child(4)").text();
//            System.out.println("bioContent="+bioContent);
            
            String study = doc.select("#yjly").text();
//            System.out.println("study="+study);
            String studyContent = doc.select("#expert > div.pub_right > div.expert_content > p:nth-child(6)").text();
//            System.out.println("studyContent="+studyContent);
            
            String edu = doc.select("#yjly").text();
//            System.out.println("edu="+edu);
            String eduContent = doc.select("#expert > div.pub_right > div.expert_content > p:nth-child(8)").text();
//            System.out.println("eduContent="+eduContent);
            
            String report = doc.select("#国研报告").text();
//            System.out.println("report="+report);
            String reportContent = doc.select("#expert > div.pub_right > div.expert_content > ul:nth-child(10) > li > a").text();
//            System.out.println("reportContent="+reportContent);
            
            String xueshu = doc.select("#学术论文").text();
//            System.out.println("xueshu="+xueshu);
            String xueshuContent = doc.select("#expert > div.pub_right > div.expert_content > ul:nth-child(12) > li > a").text();
//            System.out.println("xueshuContent="+xueshuContent);
            
            String zhuzuo = doc.select("#学术著作").text();
//            System.out.println("zhuzuo="+zhuzuo);
            String zhuzuoContent = doc.select("#expert > div.pub_right > div.expert_content > ul:nth-child(14) > li > a").text();
//            System.out.println("zhuzuoContent="+zhuzuoContent);
            
            String huodong = doc.select("#学术活动").text();
//            System.out.println("huodong="+huodong);
            String huodongContent = doc.select("#expert > div.pub_right > div.expert_content > ul:nth-child(16) > li > a").text();
//            System.out.println("huodongContent="+huodongContent);
            
            String jianzhi = doc.select("#gnXsjz").text();
//            System.out.println("jianzhi="+jianzhi);
            String jianzhiContent = doc.select("#expert > div.pub_right > div.expert_content > p:nth-child(18)").text();
//            System.out.println("jianzhiContent="+jianzhiContent);
            
            String rongyu = doc.select("#gnHjqk").text();
//            System.out.println("rongyu="+rongyu);
            String rongyuContent = doc.select("#expert > div.pub_right > div.expert_content > p:nth-child(20)").text();
//            System.out.println("rongyuContent="+rongyuContent);

            StringBuffer sb = new StringBuffer();
            sb.append(org);
            sb.append("\r\n");
            sb.append(orgContent);
            sb.append("\r\n");
            sb.append(bio);
            sb.append("\r\n");
            sb.append(bioContent);
            sb.append("\r\n");
            sb.append(study);
            sb.append("\r\n");
            sb.append(studyContent);
            sb.append("\r\n");
            sb.append(edu);
            sb.append("\r\n");
            sb.append(eduContent);
            sb.append("\r\n");
            sb.append(report);
            sb.append("\r\n");
            sb.append(reportContent);
            sb.append("\r\n");
            sb.append(xueshu);
            sb.append("\r\n");
            sb.append(xueshuContent);
            sb.append("\r\n");
            sb.append(zhuzuo);
            sb.append("\r\n");
            sb.append(zhuzuoContent);
            sb.append("\r\n");
            sb.append(huodong);
            sb.append("\r\n");
            sb.append(huodongContent);
            sb.append("\r\n");
            sb.append(jianzhi);
            sb.append("\r\n");
            sb.append(jianzhiContent);
            sb.append("\r\n");
            sb.append(rongyu);
            sb.append("\r\n");
            sb.append(rongyuContent);
            sb.append("\r\n");
            text = sb.toString();
        } catch (IOException e) {
            e.printStackTrace();
        }
        return text;
    }
}

转载于:https://www.cnblogs.com/xgwtzg/p/6141767.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值