java爬取网页_Java 爬虫爬取html网页解析

最新推荐文章于 2021-06-25 10:12:03 发布

萧良善

最新推荐文章于 2021-06-25 10:12:03 发布

阅读量251

点赞数

文章标签： java爬取网页

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_32821643/article/details/114470017

版权

1、springboot项目，引入jsoup

org.jsoup

jsoup

1.10.2

2、准备解析对象

Content.java

package com.asia.pojo;

import lombok.AllArgsConstructor;

import lombok.Data;

import lombok.NoArgsConstructor;

//java项目 www.fhadmin.org

@Data

@NoArgsConstructor

@AllArgsConstructor

public class Content {

private String title;

private String img;

private String price;

}

3、爬虫工具类

HtmlParseUtil.java

package com.asia.utils;

import java.net.URL;

import java.net.URLDecoder;

import java.util.ArrayList;

import java.util.List;

import org.jsoup.Jsoup;

import org.jsoup.nodes.Document;

import org.jsoup.nodes.Element;

import org.jsoup.select.Elements;

import com.asia.pojo.Content;

//java项目 www.fhadmin.org

public class HtmlParseUtil {

public static void main(String[] args) throws Exception {

new HtmlParseUtil().parseJD("西瓜").forEach(System.out::println);

}

public List parseJD(String keywords) throws Exception {

String url = "https://search.jd.com/Search?keyword=" + URLDecoder.decode(keywords, "GBK");

// 解析网页.(Jsoup返回Document就是浏览器的Document对象)

Document document = Jsoup.parse((new URL(url)), 30000);

Element element = document.getElementById("J_goodsList");

Elements elements = element.getElementsByTag("li");

List list = new ArrayList();

for (Element el : elements) {

String src = el.getElementsByTag("img").eq(0).attr("data-lazy-img");

String price = el.getElementsByClass("p-price").eq(0).text();

String name = el.getElementsByClass("p-name").eq(0).text();

list.add(new Content(name, src, price));

}

return list;

}

}

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
java爬取网页_Java 爬虫爬取html网页解析

1、springboot项目，引入jsouporg.jsoupjsoup1.10.22、准备解析对象Content.javapackage com.asia.pojo;import lombok.AllArgsConstructor;import lombok.Data;import lombok.NoArgsConstructor;//java项目 www.fhadmin.org@Data@No...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。