大数据
剑侠_紫藤萝瀑布
只求每天进步
展开
-
WebMagic爬取网站内容
WebMagic爬取网站内容一、WebMagic介绍 WebMagic是一个开源的Java爬虫框架,目标是简化爬虫的开发流程让开发者专注于逻辑功能的开发 WebMagic采用完全模块化的设计,功能覆盖整个爬虫的生命周期(链接提取、页面下载、内容抽取、持久化),支持多线程抓取,分布式抓取,并支持自动重试、自定义UA/cookie等功能。1.1、原理介绍原创 2017-11-29 15:45:20 · 4515 阅读 · 0 评论 -
MapReduce工作流程详述
MapReduce过程1:最简单的过程: map - reduce 2:定制了partitioner以将map的结果送往指定reducer的过程: map - partition - reduce 3:增加了在本地先进性一次reduce(优化) map - combin(本地reduce) - partition - reduce基本上,一个完整的mapreduce过程可以分为原创 2017-12-11 15:46:35 · 1108 阅读 · 0 评论