完整Java爬取起点小说网小说目录以及对应链接

本文介绍了作者在短时间内使用Java和JSOUP框架快速开发一个爬虫项目的过程。项目分为Entity、Dao、Service三层,实现了小说的章节信息抓取并存储到MySQL数据库中。文章还提到了项目存在的不足,即目标URL硬编码,建议通过Dao层处理用户输入的URL。
摘要由CSDN通过智能技术生成

(第一次使用markdown写,其中的排版很不好,望大家理解)
   因为最近有一个比赛的事情,故前期看了看黄大神的webmagic框架,无奈之时用时不会正则表达式的使用,临近交作品时间节点,突击看了看Java自带的一个框架,JSOUP框架,大概是三天就写好了这个小爬虫。具体如下:

 时间的安排:

  • 周六看了一天jsoup文档
  • 周日用Java的三大框架敲了一天打代码
  • 周一课余时间内改了改其中的bug,周一晚上完美运行了

 下面说说具体的思路安排
采用传统项目的三大框架,层层相扣,具有很高的扩展性,对后期项目的改进很好,这三层分别是:

  • Entity层(实体层)
  • Dao层(数据访问层)
  • Service层(业务逻辑层)

 用到的工具分别是:

  • eclipse
  • Maven
  • Mysql

  Entity层定义需要爬到的一些属性,比如小说中的id、小说的章节以及章节名、小说各个章节的链接等等。

package xuf.entity;

public class NovelAttribute {

    private String id; // id
    private String FictionName; // 小说名
    private String FictionChapter; // 小说章节以及章节名
    private String FictionUrl; // 章节链接

    public String getId() {
        return id;
    }

    public void setId(String id) {
        this.id = id;
    }

    public String getFictionName() {
        return FictionName;
    }

    public void setFictionName(String fictionName) {
        FictionName = fictionName;
    }

    public String getFictionChapter() {
        return FictionChapter;
    }

    public void setFictionChapter(String fictionChapter) {
        FictionChapter = fictionChapter;
    }

    public String getFictionUrl() {
        return FictionUrl;
    }

    public void setFictionUrl(String fictionUrl) {
        FictionUrl = fictionUrl;
    }

    public String toString() {
        return "NovelAttribute [id=" + id + ",FictionName=" + FictionName + ", FictionChapter=" + FictionChapter + ","
                + " FictionUrl=" + FictionUrl + "]";
    }
}

  dao层则是一些数据处理的内容,通过dao层将数据持久化到mysql数据库中.

评论 10
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值