数据抓取
飞翔蓝天-IT-NPF
这个作者很懒,什么都没留下…
展开
-
抓取维基百科数据
1方案概述抓取维基百科数据。根据网上调查,现有三种解决方案:² 使用Apache Nutch爬虫技术,深度抓取页面数据。² 使用JWPL技术,解析Wikipaia离线数据。² 使用Jsoup工具类,解析Wikipaia在线html dom元素。2方案分析2.1 ApacheNutch2.1 Apache Nutch2.1.1原理Nutch原创 2015-12-06 16:42:40 · 9101 阅读 · 1 评论 -
WebMagic 爬虫框架学习
http://webmagic.io/docs/zh/posts/ch1-overview/architecture.html1.2 总体架构WebMagic的结构分为Downloader、PageProcessor、Scheduler、Pipeline四大组件,并由Spider将它们彼此组织起来。这四大组件对应爬虫生命周期中的下载、处理、管理和持久化等功能。WebMagic的设计参考原创 2015-10-13 12:54:20 · 6565 阅读 · 0 评论