![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
分布式采集
春宇大数据
春宇大数据,包括Hadoop平台部、分布式数据仓库部、分布式采集部、分析挖掘部、精准营销部、新技术研发部等,……。
展开
-
分布式爬虫:使用Scrapy抓取数据
Scrapy是Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。 官方主页: http://www.scrapy.org/中文文档:Scrapy 0.22 文档GitHub项目主页:https://github.com/scrapy/scrapy Scrapy 使用了 Twi转载 2015-03-01 16:32:13 · 6410 阅读 · 0 评论 -
Flume-ng的原理和使用
1. 介绍 Flume 是 Cloudera 提供的日志收集系统,具有分布式、高可靠、高可用性等特点,对海量日志采集、聚合和传输,Flume 支持在日志系统中定制各类数据发送方,同时,Flume提供对数据进行简单处理,并写到各种数据接受方的能力。 Flume 使用 java 编写,其需要运行在 Java1.6 或更高版本之上。 官方网站:http://flume.apache.o转载 2015-03-01 16:36:03 · 774 阅读 · 0 评论