插拔式java_Java网络爬虫MySpider,特点是组件化,可插拔式

MySpider是一个基于Java的可插拔式网络爬虫项目,设计初衷是为了提高开发效率。它包括Boot初始化、ScheduleQueue、Downloader、HttpHeadParser、Processor、DataService等组件。该项目适合初级Java爬虫学习者,涵盖了Java网络编程、多线程开发和maven使用等内容。用户可以自定义组件,并提供了Demo程序进行实践。
摘要由CSDN通过智能技术生成

Introduction

MySpider是使用Java语言实现的网络爬虫项目,它本来是我的一个个人爬虫练习项目,但是由于爬虫需求丰富,针对每次爬虫需求总感觉让我在重写整个项目的感觉,故为了提高开发效率,我开发了MySpider

What Component does MySpider have?

Boot,用于MySpider的初始化配置

ScheduleQueue,需爬取的URL链接队列

Downloader,用于处理各类网络下载需求,保存源数据至本地

HttpHeadParser,用于处理HTTP报文头数据

Processor,用于处理源数据,爬取我们需要的信息,保存至结果文件内

DataService,提供数据持久化的服务,最基本的为数据的crud接口(默认采用mybatisDataService来使用mybatis进行数据库操作,你可以编写自定义的DataService来使用别的你想用的持久层框架)

DataObject,存放POJO类的地方

DatabaseAssist,若使用了数据库作为数据持久化工具,则必须将所有为了连接数据库而产生的相关辅助类全部放在DatabaseAssist包内,比如使用了mybatis,则建立mybatis子包,将mapper类和mapper.xml文件全部放置在这里。

Constants,运行时常量库

MySpider,一个MySpider代表一个网络爬虫的对象,可以调用其他组件的功能

MyLogger,封装第三方日志文件的调用接口,使得替换日志文件框架不

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值