- 博客(3)
- 收藏
- 关注
原创 MapReduce工作流程详述
MapReduce过程1:最简单的过程: map - reduce 2:定制了partitioner以将map的结果送往指定reducer的过程: map - partition - reduce 3:增加了在本地先进性一次reduce(优化) map - combin(本地reduce) - partition - reduce基本上,一个完整的mapreduce过程可以分为
2017-12-11 15:46:35 1112
原创 WebMagic爬取网站内容
WebMagic爬取网站内容一、WebMagic介绍 WebMagic是一个开源的Java爬虫框架,目标是简化爬虫的开发流程让开发者专注于逻辑功能的开发 WebMagic采用完全模块化的设计,功能覆盖整个爬虫的生命周期(链接提取、页面下载、内容抽取、持久化),支持多线程抓取,分布式抓取,并支持自动重试、自定义UA/cookie等功能。1.1、原理介绍
2017-11-29 15:45:20 4524
原创 c3P0结合DBUtils操作数据库
DBUtils和C3P0介绍 DBUtils是java编程中的数据库操作使用工具,小巧简单实用。对于数据库表的操作,可以把结果转换成List,Array,Set等Java集合。 是 Apache 组织提供的一个开源 JDBC工具类库,它是对JDBC的简单封装,学习成本极低,并且使用dbutils能极大简化jdbc编码的工作量,同时也不会影响程序的性能。 DBUtils有几个重要的类,简要介绍 1
2017-09-30 14:02:06 884
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人