webmagic简介:
WebMagic是一个简单灵活的Java爬虫框架。你可以快速开发出一个高效、易维护的爬虫。
http://webmagic.io/
准备工作:
Maven依赖(我这里用的Maven创建的web项目做测试):
View Code
数据库表SQL:
CREATE TABLE `Boke` (
`id` int(11) NOT NULL AUTO_INCREMENT COMMENT 'id',
`title` varchar(255) DEFAULT NULL COMMENT '标题',
`linke` varchar(255) DEFAULT NULL COMMENT '正文地址',
`author` varchar(255) DEFAULT NULL COMMENT '作者'
`authorUrl` varchar(255) DEFAULT NULL COMMENT '作者主页',
`summary` varchar(1000) DEFAULT NULL COMMENT '简介',
PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=4890 DEFAULT CHARSET=utf8;
数据库链接工具类:
View Code
实体类:
View Code
webmagic 框架爬取数据并保存
import java.sql.Prep