引言
互联网采集系统,言简意赅,就是能够对自己想要采集的网站系统进行一些文档和资源的采集。翻看了一大堆采集系统,大多不符合自己想要的,所以,本着自力更生的原则,花个时间按照自己的需求想法编写一个互联网采集系统。
后端框架搭建
自身因为是后端JAVA出身,那就选择JAVA语言开发没说的,直接就上手SpringBoot搭建一个基础框架,SpringBoot版本选用2.3.2.RELEASE,加上一些暂定基础依赖,一个基础框架就搭建完成了。
<parent>
<groupId>org.springframework.boot</groupId>
<artifactId>spring-boot-starter-parent</artifactId>
<version>2.3.2.RELEASE</version>
<relativePath/> <!-- lookup parent from repository -->
</parent>
<groupId>cn.orange</groupId>
<artifactId>orange-collect-java</artifactId>
<version>1.0.1</version>
<name>orange-collect-java</name>
<description>橘子互联网采集系统</description>
整个框架项目结构为:
数据库设计
对于数据库,直接用Mysql。分析咱这个采集系统,首先肯定是能够设置需要采集的站点,对于配置的站点又可以采集站点中的对应栏目,又能够针对不同的站点、栏目去配置对于的采集规则。这样,简单的基本数据库表就出来了。
从上往下依次为采集规则表、采集站点表和采集栏目表。
项目运行
基于上面的项目搭建和数据库设计,我们把框架和数据库连接配置起来。
spring:
datasource:
type: com.alibaba.druid.pool.DruidDataSource
driver-class-name: com.mysql.jdbc.Driver
druid:
# 配置获取连接等待超时的时间
max-wait: 60000
# 配置间隔多久才进行一次检测,检测需要关闭的空闲连接,单位是毫秒
time-between-eviction-runs-millis: 60000
# 配置一个连接在池中最小生存的时间,单位是毫秒
min-evictable-idle-time-millis: 300000
validation-query: select 1 from dual
test-while-idle: true
# 连接池的配置信息
# 初始化大小,最小,最大
initial-size: 1
min-idle: 1
maxActive: 2
username: root
password: 123456
url: jdbc:mysql://127.0.0.1:3306/orange_collect?autoReconnect=true&useSSL=false&useUnicode=true&characterEncoding=UTF-8&serverTimezone=Asia/Shanghai&rewriteBatchedStatements=true
最后,咱们把项目运行一下。
项目能够正常运行起来,这样,前期的准备工作都已经完毕。