Java爬虫
Macropodus
最后一次为理想而战。安知南山桂,绿叶垂芳根。何须浅碧深红色,自是花中第一流。
展开
-
WebMagic爬虫入门教程(一)简介
(一)前言 工作学习中,需要进行爬虫。百度百科上说,网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。 网络爬虫,我是这样理解的,简单说,就是下载web网页上的html代码中的信息。 那么到底用什么语言...原创 2017-10-30 15:21:07 · 12386 阅读 · 2 评论 -
WebMagic爬虫入门教程(二)一个完整的爬取动漫之家的实例
(一)前言 我的上一篇博客已经说明如何爬取某一个网页的动漫数据,这里重点说一下一个完整的爬虫实例。 和上一篇文章相比,多了的就是动画种类,日文名什么的。 推荐这个爬取博客的:http://blog.csdn.net/qq598535550/article/details/51287630 ...原创 2017-10-31 18:25:25 · 7040 阅读 · 5 评论 -
WebMagic爬虫入门教程(三)爬取汽车之家的实例-品牌车系车型结构等
本文使用WebMagic爬取汽车之家的品牌车系车型结构价格能源产地国别等;java代码备注,只是根据url变化爬取的,没有使用爬取script页面具体的数据,也有反爬机制,知识简单爬取html标签项目github地址:https://github.com/yongzhuo/JavaLearning/tree/master/src/java/Webmagic爬取的网页: ...原创 2018-04-24 14:05:57 · 2929 阅读 · 3 评论