WebMagic入门--爬取b站视频标题与时间戳Demo

最新推荐文章于 2023-11-07 17:12:15 发布

UshinawaretaNeko

最新推荐文章于 2023-11-07 17:12:15 发布

阅读量2k

点赞数

分类专栏： JavaStudy 爬虫文章标签： webmagic 入门 demo 爬虫

本文链接：https://blog.csdn.net/UshinawaretaNeko/article/details/82597964

版权

JavaStudy 同时被 2 个专栏收录

6 篇文章 0 订阅

订阅专栏

爬虫

1 篇文章 0 订阅

订阅专栏

WebMagic入门–爬取b站视频标题与时间戳Demo

最近对爬虫有点感兴趣，了解了一下java相关的爬虫框架，选用webmagic作为入门。
写了个比官方案例还简单的Demo，甚至可以用简陋来形容。

package test.t01;

import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.processor.PageProcessor;

public class PageProcess实现方法 implements PageProcessor{
    //设置拼接的url变量
    private static int count =123422;
    //设置网站相关配置
    private Site site = Site.me().setRetryTimes(5).setSleepTime(0).setUserAgent("Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36");//重试次数和抓取间隔
    public void process(Page page) {
        //视频标题
        System.out.println(page.getHtml().xpath("//h1/span/text()").get());
        //时间戳
        System.out.println(page.getHtml().xpath("//div/time/text()"));
    }
    public Site getSite() {
        return site;
    }
    public static void main(String[] args) {
            while (count<130000) {
                Spider.create(new PageProcess实现方法()).addUrl("https://www.bilibili.com/video/av" + count + "/").thread(1).run();
                count++;
            }
    }
}

UshinawaretaNeko

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
WebMagic入门--爬取b站视频标题与时间戳Demo

WebMagic入门–爬取b站视频标题与时间戳Demo最近对爬虫有点感兴趣，了解了一下java相关的爬虫框架，选用webmagic作为入门。写了个比官方案例还简单的Demo，甚至可以用简陋来形容。package test.t01;import us.codecraft.webmagic.Page;import us.codecraft.webmagic.Site;impor...
复制链接

扫一扫