Java可以使用jsoup模块 爬取对应网站网页的前端页面信息
首先导入依赖
<dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.10.2</version> </dependency>
这里选择从京东商城页面中爬取信息
"https://search.jd.com/Search?keyword=java"
通过F12查看前端数据 获取商品图片 价格 名字三个信息
具体代码如下:
package com.example.demos.util; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements; import java.io.IOException; import java.net.URL; public class HtmlParseUtil { public static void main(String[] args) throws IOException{ // 获取请求 https://search.jd.com/Search?keyword=java String url="https://search.jd.com/Search?keyword=java"; // 解析网页 获得浏览器的Document对象 Document document = Jsoup.parse(new URL(url), 30000); // 获取对应的element Element element = document.getElementById("J_goodsList"); // 根据标签获得elements 这里标签是li Elements elements = element.getElementsByTag("li"); for(Element el : elements){ // 获取图片 String img = el.getElementsByTag("img").eq(0).attr("data-lazy-img"); // 获取价格 String price = el.getElementsByClass("p-price").eq(0).text(); // 获取商品名称 String title = el.getElementsByClass("p-name").eq(0).text(); System.out.println("============================"); System.out.println(img); System.out.println(price); System.out.println(title); } } }控制台打印结果