java的简单获取url

7 篇文章 0 订阅

现在获取数据大多都是python,但是java页可以

package test;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import java.io.IOException;
import java.util.ArrayList;
import java.util.List;

/**
 * @ProjectName: spider01
 * @Package: test
 * @ClassName: LYGGongGongPiingTai
 * @Author:
 * @Description:
 * @Date: 2021/9/18 9:52 上午
 * @Version: 1.0
 */
public class LYGGongGongPiingTai {
    public static String getHtml(String url){
        String html = null;
        try {
            html = Jsoup.connect(url)
                    .ignoreContentType(true).timeout(5000).execute().body();
        } catch (IOException e) {

        }
        return html;
    }
    public static List<String> getList(String html){
        List<String> list = new ArrayList<String>();
        Document document =Jsoup.parse(html);
        Elements elements=document.select("a");
        for (Element element:elements){
            if ("_blank".equals(element.attr("target"))) {
//                System.out.println(element.attr("href"));
                String url = "http://spzx.lyg.gov.cn/" + element.attr("href");
                list.add(url);
            }
        }
        return list;
    }
    private static void geturl() {
        for (int i = 1;i<5;i++) {
            System.out.println("当前运行页数" + i );
            String url = "http://spzx.lyg.gov.cn/lygweb/jyxx/001007/001007002/" + i + ".html";
            String html = getHtml(url);
//            System.out.println(html);
            System.out.println(getList(html));
        }
    }

    private static  List<String>  getlygwebList(String html) {
        List<String> list = new ArrayList<String>();
        Document document =Jsoup.parse(html);
        Elements elements=document.select("p");
        for (Element element:elements){
//            System.out.println(element.text());
            list.add(element.text());
        }
        return list;
    }

    private static void getlygweb() {
        String url = "http://spzx.lyg.gov.cn/lygweb/jyxx/001007/001007002/20210908/100e7667-6711-4f2a-9b57-383de53915e9.html";
        url = "http://spzx.lyg.gov.cn/lygweb/jyxx/001007/001007002/20210819/7570f01b-b069-437c-b343-c10988cfe082.html";
        String html = getHtml(url);
//        System.out.println(html);
        System.out.println(getlygwebList(html));
    }



    public static void main(String[] args) {
        //1 获取链接
        geturl();
        //2简单的抽取html
        getlygweb();
    }




}

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值