java使用爬虫_Java中如何使用爬虫进行解析?

Z

我们都知道可以用爬虫来找寻一些想要的数据,除了可以使用python进行操作,我们最近学习的java同样也支持爬虫的运行,本篇小编就教大家用java爬虫来进行网页的解析,具体内容请往下看:

1、springboot项目,引入jsoup

org.jsoup

jsoup

1.10.2

2、准备解析对象Content.java

package com.asia.pojo;

import lombok.AllArgsConstructor;

import lombok.Data;

import lombok.NoArgsConstructor;

@Data

@NoArgsConstructor

@AllArgsConstructor

public class Content {

private String title;

private String img;

private String price;

}

3、爬虫工具类HtmlParseUtil.java

package com.asia.utils;

import java.net.URL;

import java.net.URLDecoder;

import java.util.ArrayList;

import java.util.List;

import org.jsoup.Jsoup;

import org.jsoup.nodes.Document;

import org.jsoup.nodes.Element;

import org.jsoup.select.Elements;

import com.asia.pojo.Content;

public class HtmlParseUtil {

public static void main(String[] args) throws Exception {

new HtmlParseUtil().parseJD("西瓜").forEach(System.out::println);

}

public List parseJD(String keywords) throws Exception {

String url = "https://search.jd.com/Search?keyword=" + URLDecoder.decode(keywords, "GBK");

// 解析网页.(Jsoup返回Document就是浏览器的Document对象)

Document document = Jsoup.parse((new URL(url)), 30000);

Element element = document.getElementById("J_goodsList");

Elements elements = element.getElementsByTag("li");

List list = new ArrayList();

for (Element el : elements) {

String src = el.getElementsByTag("img").eq(0).attr("data-lazy-img");

String price = el.getElementsByClass("p-price").eq(0).text();

String name = el.getElementsByClass("p-name").eq(0).text();

list.add(new Content(name, src, price));

}

return list;

}

}

运行效果:

2Q==

以上就是我们使用java爬虫进行网页解析的方法,学会的小伙伴快行动起来吧。

本文来源于网络,如有雷同联系作者修改。更多Java学习指路:js教程

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值