JAVA实现爬虫

1.项目搭建
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

2.导入相关依赖

		<dependency><!--jsoup只能解析网页    tika能解析视频网站  -->
            <groupId>org.jsoup</groupId>
            <artifactId>jsoup</artifactId>
            <version>1.10.2</version>
        </dependency>

3.找到B站的官网链接

https://search.bilibili.com/all?keyword=%E5%81%87%E7%9A%84%E6%A0%A1%E8%8A%B1

4.编写代码


/**
* @description: 爬取网页
* @author TAO
* @date 2020/7/23 22:55
*/
public class HtmlParseUtil {
    public static void main(String[] args) throws IOException {
        //爬取的网页地址https://www.bilibili.com/

        String url="https://search.bilibili.com/all?keyword=%E5%81%87%E7%9A%84%E6%A0%A1%E8%8A%B1";

        
        Document document = Jsoup.parse(new URL(url), 30000);
        Elements video_list = document.getElementsByClass("video-list");
        Elements video_item = video_list.get(0).getElementsByClass("video-item");

        for (Element el:video_item){
            String videoUrl=el.getElementsByTag("a").eq(0).attr("href");
            String title=el.getElementsByTag("a").eq(0).attr("title");
            String time=el.getElementsByClass("time").eq(0).text();
            System.out.println("-------------------");
            System.out.println(videoUrl.substring(2));
            System.out.println(title);
            System.out.println(time);
        }
        System.out.println(video_item.get(0));

    }
}

这里对照标签来取值
//解析网页Jsoup返回Document就是浏览器的Document对象
//所有在js中能使用的方法,这里都能使用

建议使用谷歌浏览器,比较简洁
在这里插入图片描述

5.运行结果
在这里插入图片描述
6.数据对比
在这里插入图片描述
简单的JAVA实现爬虫就搞定了!!!

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

程序员劝退师-TAO

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值