小说网站复盘一(webmaigc获取小说数据)

前面已经介绍了项目的框架,这一篇主要介绍使用webmagic爬虫获取数据。

这里只会贴上关键代码,如果想看全部代码可以到github上面去下载。

首先,使用webmagic框架只需要定制爬虫规则就可以了,但是解析爬虫下载的html页面,就需要解析工具了,这里我用的Jsoup。

下面贴一个例子

//排行榜页面
    private void FirstURL(Page page) {
   

        try {
   
            //获取当前的url
            String link = page.getUrl().get();
            //解析HTML(由于该网站的8个分类div好像是动态的,只能解析该页面,然后挨个遍历这8个div节点)
            Document doc = Jsoup.connect(link).get();
            //获取小说排行榜的分类div
            Elements typeDiv = doc.getElementsByClass("tbo");
            //遍历这些分类div
            for (Element typediv : typeDiv) {
   
                //获取分类名所在的节点
                Elements typeNodo = typediv.select("span.btitle");
                //通过分类名节点获取分类名
                String typeName = typeNodo.text();
                typeName = typeName.substring(0,2);
                BookType bookType = new BookType();
                bookType.setTypeName(typeName);

                //提取该分类名,并查询数据库,如果数据库没有该条数据则添加
                QueryWrapper<BookType> queryWrapper = new QueryWrapper<>()
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值