Java Spring Boot 从必应爬取图片

获取图片主要就是通过必应图片页面控制台的元素,确认图片和标题在哪个类中(浏览器 F12)

引入依赖

这里需要引入两个依赖 jsoup 和 hutool

maven依赖网站地址:Maven Repository: Search/Browse/Explore (mvnrepository.com)

挑选使用最多的版本即可

hutool依赖

<!-- https://mvnrepository.com/artifact/cn.hutool/hutool-all -->
<dependency>
    <groupId>cn.hutool</groupId>
    <artifactId>hutool-all</artifactId>
    <version>5.8.27</version>
</dependency>

jsoup 依赖

<!-- https://mvnrepository.com/artifact/org.jsoup/jsoup -->
<dependency>
  <groupId>org.jsoup</groupId>
  <artifactId>jsoup</artifactId>
  <version>1.15.3</version>
</dependency>

查看浏览器图片的位置

这里 murl 和 turl 都可以访问,选取一个即可。

使用 jsoup 爬取

1. 首先从 jsoup 官方文档得到示例代码:jsoup: Java HTML parser, built for HTML editing, cleaning, scraping, and XSS safety

Document doc = Jsoup.connect("https://en.wikipedia.org/").get();
log(doc.title());
Elements newsHeadlines = doc.select("#mp-itn b a");
for (Element headline : newsHeadlines) {
  log("%s\n\t%s", 
    headline.attr("title"), headline.absUrl("href"));
}

2. 完整代码

public class CrawlerTest {
    public static void main(String[] args) throws IOException {
        //搜索词,可以替换成你想搜索的词,前端传入
        System.out.println("请输入想要搜索的图片:");
        Scanner scanner =  new Scanner(System.in);
        String search = scanner.nextLine();
        //拼接想要搜索的图片
        String url = String.format("https://cn.bing.com/images/search?q=%s&first=1", search);
        /*
          简单来说,jsoup 就是爬虫,通过 jsoup 提供的 api,可以方便的获取到网页的 html 结构,
          然后通过解析 html 结构,获取到我们想要的数据
          connect 方法是 jsoup 提供的连接网页的方法,传入 url 即可
          get 方法是 jsoup 提供的获取网页内容的方法,返回值是 Document 类型
         */
        Document doc = Jsoup.connect(url).get();
        /*
        * 从文档中获取到所有的图片元素,通过选择器 ".iuscp.isv" 获取到所有的图片元素
        * .iuscp.isv 表示的是图片元素,是上一步通过浏览器的控制台找到的
        * 然后遍历这些元素,获取到图片的地址,图片名称等
        */
        Elements elements = doc.select(".iuscp.isv");
        for (Element element : elements) {

            //获取到图片的地址
            String murl = element.select(".iusc").get(0).attr("m");
            /*
            获取到的图片地址是 Json 格式
            通过 Hutool 提供的 JSONUtil 工具类,将 Json 格式转换成 Map 格式
            然后通过 Map 获取到图片的地址

            注意:Hutool 是一个 Java 工具包,它封装了 Java 开发中常用的方法,
             */
            Map<String, Object> map = JSONUtil.toBean(murl, Map.class);
            String fmurl = (String) map.get("murl");
            System.out.println(fmurl);
            /*
            获取图片名称和图片地址同理
            通过 element.select(".inflnk") 获取到图片名称元素,通过 attr("aria-label") 获取到图片名称
             */
            String pName = element.select(".inflnk").get(0).attr("aria-label");
            System.out.println(pName);
        }
    }
}

结果展示

随便选取一个地址打开

 

完成。 

  • 7
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值