Java 爬虫-Jsoup

<!--Jsoup-->
<dependency>
    <groupId>org.jsoup</groupId>
    <artifactId>jsoup</artifactId>
    <version>1.10.3</version>
</dependency>

示例,爬取该网站的品牌,通过select选择器,先选择div块,再读取div中按标签的内容

@GetMapping("/reptile")
    public CommonResult<?> reptile() {
        //    解析url地址
        Document document = null;
        try {
            document = Jsoup.parse(new URL("http://o2**.****.com/search?"), 1000);
        } catch (IOException e) {
            e.printStackTrace();
        }
        //获取title的内容
        Element title = document.select("div.brand_cen").first();
        MachineBrand machineBrand = null;
        List<MachineBrand> brandList = new ArrayList<>();
        char c;
        for (c = 'A'; c <= 'Z'; ++c) {
            if (String.valueOf(c).equals("U")) {
                continue;
            }
            final String divClass = "div.brand_box" + c;
            final Element div = title.select(divClass).first();
            final ListIterator<Element> a = div.select("a").listIterator();
            int sort = 0;
            while (a.hasNext()) {
                final Element next = a.next();
                final String text = next.text();
                machineBrand = new MachineBrand();
                machineBrand.setName(text);
                machineBrand.setSort(sort);
                machineBrand.setType(String.valueOf(c));
                brandList.add(machineBrand);
                sort++;
            }
        }
        brandService.saveBatch(brandList);
        return CommonResult.success("1");
    }

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值