完整Java爬取起点小说网小说目录以及对应链接

最新推荐文章于 2024-06-20 16:14:37 发布

finnxu

最新推荐文章于 2024-06-20 16:14:37 发布

阅读量5.2k

点赞数 2

分类专栏： java 文章标签： java

本文链接：https://blog.csdn.net/qq_34307723/article/details/72288624

版权

本文介绍了作者在短时间内使用Java和JSOUP框架快速开发一个爬虫项目的过程。项目分为Entity、Dao、Service三层，实现了小说的章节信息抓取并存储到MySQL数据库中。文章还提到了项目存在的不足，即目标URL硬编码，建议通过Dao层处理用户输入的URL。

摘要由CSDN通过智能技术生成

(第一次使用markdown写，其中的排版很不好，望大家理解)
因为最近有一个比赛的事情,故前期看了看黄大神的webmagic框架,无奈之时用时不会正则表达式的使用,临近交作品时间节点,突击看了看Java自带的一个框架,JSOUP框架，大概是三天就写好了这个小爬虫。具体如下：

时间的安排：

周六看了一天jsoup文档
周日用Java的三大框架敲了一天打代码
周一课余时间内改了改其中的bug，周一晚上完美运行了

下面说说具体的思路安排
采用传统项目的三大框架，层层相扣，具有很高的扩展性，对后期项目的改进很好，这三层分别是：

Entity层（实体层）
Dao层（数据访问层）
Service层（业务逻辑层）

用到的工具分别是：

eclipse
Maven
Mysql

Entity层定义需要爬到的一些属性，比如小说中的id、小说的章节以及章节名、小说各个章节的链接等等。

package xuf.entity;

public class NovelAttribute {

    private String id; // id
    private String FictionName; // 小说名
    private String FictionChapter; // 小说章节以及章节名
    private String FictionUrl; // 章节链接

    public String getId() {
        return id;
    }

    public void setId(String id) {
        this.id = id;
    }

    public String getFictionName() {
        return FictionName;
    }

    public void setFictionName(String fictionName) {
        FictionName = fictionName;
    }

    public String getFictionChapter() {
        return FictionChapter;
    }

    public void setFictionChapter(String fictionChapter) {
        FictionChapter = fictionChapter;
    }

    public String getFictionUrl() {
        return FictionUrl;
    }

    public void setFictionUrl(String fictionUrl) {
        FictionUrl = fictionUrl;
    }

    public String toString() {
        return "NovelAttribute [id=" + id + ",FictionName=" + FictionName + ", FictionChapter=" + FictionChapter + ","
                + " FictionUrl=" + FictionUrl + "]";
    }
}