JAVA实现爬虫

最新推荐文章于 2024-08-13 03:11:52 发布

置顶程序员劝退师-TAO

最新推荐文章于 2024-08-13 03:11:52 发布

阅读量632

点赞数 2

分类专栏： JAVA

本文链接：https://blog.csdn.net/CSDN877425287/article/details/107550038

版权

JAVA 专栏收录该内容

46 篇文章 2 订阅

订阅专栏

1.项目搭建
在这里插入图片描述

在这里插入图片描述

2.导入相关依赖

		<dependency><!--jsoup只能解析网页    tika能解析视频网站  -->
            <groupId>org.jsoup</groupId>
            <artifactId>jsoup</artifactId>
            <version>1.10.2</version>
        </dependency>

3.找到B站的官网链接

https://search.bilibili.com/all?keyword=%E5%81%87%E7%9A%84%E6%A0%A1%E8%8A%B1

4.编写代码


/**
* @description: 爬取网页
* @author TAO
* @date 2020/7/23 22:55
*/
public class HtmlParseUtil {
    public static void main(String[] args) throws IOException {
        //爬取的网页地址https://www.bilibili.com/

        String url="https://search.bilibili.com/all?keyword=%E5%81%87%E7%9A%84%E6%A0%A1%E8%8A%B1";

        
        Document document = Jsoup.parse(new URL(url), 30000);
        Elements video_list = document.getElementsByClass("video-list");
        Elements video_item = video_list.get(0).getElementsByClass("video-item");

        for (Element el:video_item){
            String videoUrl=el.getElementsByTag("a").eq(0).attr("href");
            String title=el.getElementsByTag("a").eq(0).attr("title");
            String time=el.getElementsByClass("time").eq(0).text();
            System.out.println("-------------------");
            System.out.println(videoUrl.substring(2));
            System.out.println(title);
            System.out.println(time);
        }
        System.out.println(video_item.get(0));

    }
}