爬虫 初体验(爬取小说)

目标:

爬取笔下文学小说网的 《神墓》,下载到本地txt

材料:

jsoup

以下:

项目结构:

pom:

<dependency>
    <groupId>org.jsoup</groupId>
	<artifactId>jsoup</artifactId>
	<version>1.9.2</version>
</dependency>

网页元素:

实现:

package com.lxl.txt.controller;

import com.lxl.txt.bean.RuYi;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;

import java.io.BufferedWriter;
import java.io.File;
import java.io.FileWriter;
import java.io.IOException;

public class MySelf {

    private static RuYi getDetail(String url){

        //基础地址
        String next_url = "https://www.bxwxorg.com";

        //获取html对象
        Document dc = null;
        try {
            dc = Jsoup.connect(url).timeout(5000).get();
        } catch (IOException e) {
            System.out.println(e.getMessage());
        }
        //System.out.println(dc);

        //获得标题
        String title = dc.select("div.bookname > h1").text(); // 获取class=bookname的div元素后面的h1元素
        //内容
        String content = dc.getElementById("content").text();
        //下一章地址
        String pager_next = dc.getElementById("A3").attr("href");
        next_url = next_url + pager_next;

        RuYi ruyi = new RuYi();
        ruyi.setTitle(title);
        ruyi.setContent(content);
        ruyi.setNextUrl(next_url);
        ruyi.setPager_next(pager_next);

        return ruyi;
    }

    //outPut
    private static void outPut(StringBuffer buffer){
        try {
            File writeName = new File("E:\\output.txt");     // 相对路径,如果没有则要建立一个新的output.txt文件
            writeName.createNewFile();                       // 创建新文件,有同名的文件的话直接覆盖
            try (FileWriter writer = new FileWriter(writeName);
                 BufferedWriter out = new BufferedWriter(writer)
            ) {
                out.write(buffer + "\r\n");                  // \r\n即为换行
                out.flush();                                 // 把缓存区内容压入文件
            }
        } catch (IOException e) {
            e.printStackTrace();
        }
    }


    public static void main(String[] args) throws IOException {

        //起始地址(第一章地址)
        String url = "https://www.bxwxorg.com/read/36/677091.html";

        //获取
        RuYi ruyi = getDetail(url);

        //添加stringBuffer
        StringBuffer buffer = new StringBuffer();
        buffer.append(ruyi.getTitle() + "\r\n");
        buffer.append(ruyi.getContent() + "\r\n");

        //循环,等于最终章的“/read/36/”时,停止继续探索
        while(ruyi.getNextUrl() != null && ruyi.getContent() != null && !ruyi.getPager_next().equals("/read/36/")){
            //重复获取
            ruyi = getDetail(ruyi.getNextUrl().toString());

            //添加stringBuffer
            buffer.append(ruyi.getTitle() + "\r\n");
            buffer.append(ruyi.getContent() + "\r\n");
        }

        //输出
        outPut(buffer);
    }

}

实体类:

package com.lxl.txt.bean;

public class RuYi {

    private String title;       //标题
    private String content;     //内容
    private String nextUrl;     //下一章地址
    private String pager_next;  //下一章编码


    public String getPager_next() {
        return pager_next;
    }

    public void setPager_next(String pager_next) {
        this.pager_next = pager_next;
    }

    public String getTitle() {
        return title;
    }

    public void setTitle(String title) {
        this.title = title;
    }

    public String getContent() {
        return content;
    }

    public void setContent(String content) {
        this.content = content;
    }

    public String getNextUrl() {
        return nextUrl;
    }

    public void setNextUrl(String nextUrl) {
        this.nextUrl = nextUrl;
    }
}

结果:

以上。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值