
网络爬虫
码农致富
喜欢的朋友可以关注下订阅号:「码农致富」
展开
-
WebMagic(二)----抓取CSDN博客、并打印
新建一个Maven项目、在pom文件中加入WebMagic必须的一些jar包. 测试类: public class App implements PageProcessor { private Site site = Site.me().setSleepTime(1); int temp=1; //执行这个main方法,即可在控制台看到抓取结果。webmagic默原创 2016-11-03 22:08:20 · 4052 阅读 · 0 评论 -
WebMagic(三)----抓取CSDN博客通过JDBC保存到数据库中去
数据库使用的是MySQL,新建test数据库创建csdnblog表: CREATE TABLE `csdnblog` ( `id` int(11) unsigned NOT NULL auto_increment, `keyes` int(11) unsigned NOT NULL, `titles` varchar(255) NOT NULL, `content` va原创 2016-11-03 22:43:53 · 6309 阅读 · 2 评论 -
WebMagic(一)--抓取一个简单的页面
简单介绍 最近在做项目要用到爬虫抓取网页的数据,然后保存到数据库中,最后选择了WebMagic,WebMagic是国人开发的一款爬虫,WebMagic官方对他的介绍是: webmagic的主要特色: ●完全模块化的设计,强大的可扩展性。 ●核心简单但是涵盖爬虫的全部流程,灵活而强大,也是学习爬虫入门的好材料。 ●提供丰富的抽取页面API。 ●无配置,但是可通原创 2016-10-29 22:27:03 · 15494 阅读 · 4 评论