从零开始搭建一个基于SpringBoot的互联网采集系统【一】

本文链接：https://blog.csdn.net/qq_32486939/article/details/136868292

引言

互联网采集系统，言简意赅，就是能够对自己想要采集的网站系统进行一些文档和资源的采集。翻看了一大堆采集系统，大多不符合自己想要的，所以，本着自力更生的原则，花个时间按照自己的需求想法编写一个互联网采集系统。

后端框架搭建

自身因为是后端JAVA出身，那就选择JAVA语言开发没说的，直接就上手SpringBoot搭建一个基础框架，SpringBoot版本选用2.3.2.RELEASE，加上一些暂定基础依赖，一个基础框架就搭建完成了。

	<parent>
        <groupId>org.springframework.boot</groupId>
        <artifactId>spring-boot-starter-parent</artifactId>
        <version>2.3.2.RELEASE</version>
        <relativePath/> <!-- lookup parent from repository -->
    </parent>

    <groupId>cn.orange</groupId>
    <artifactId>orange-collect-java</artifactId>
    <version>1.0.1</version>
    <name>orange-collect-java</name>
    <description>橘子互联网采集系统</description>

整个框架项目结构为：
在这里插入图片描述

数据库设计

对于数据库，直接用Mysql。分析咱这个采集系统，首先肯定是能够设置需要采集的站点，对于配置的站点又可以采集站点中的对应栏目，又能够针对不同的站点、栏目去配置对于的采集规则。这样，简单的基本数据库表就出来了。
在这里插入图片描述
从上往下依次为采集规则表、采集站点表和采集栏目表。

项目运行

基于上面的项目搭建和数据库设计，我们把框架和数据库连接配置起来。

spring:
  datasource:
    type: com.alibaba.druid.pool.DruidDataSource
    driver-class-name: com.mysql.jdbc.Driver
    druid:
      # 配置获取连接等待超时的时间
      max-wait: 60000
      # 配置间隔多久才进行一次检测，检测需要关闭的空闲连接，单位是毫秒
      time-between-eviction-runs-millis: 60000
      # 配置一个连接在池中最小生存的时间，单位是毫秒
      min-evictable-idle-time-millis: 300000
      validation-query: select 1 from dual
      test-while-idle: true
        # 连接池的配置信息
      # 初始化大小，最小，最大
      initial-size: 1
      min-idle: 1
      maxActive: 2
    username: root
    password: 123456
    url: jdbc:mysql://127.0.0.1:3306/orange_collect?autoReconnect=true&useSSL=false&useUnicode=true&characterEncoding=UTF-8&serverTimezone=Asia/Shanghai&rewriteBatchedStatements=true