四款有名的开源海量数据采集工具

最新推荐文章于 2024-07-23 22:54:36 发布

jnan77

最新推荐文章于 2024-07-23 22:54:36 发布

阅读量1.6k

点赞数

分类专栏：其他文章标签：行业数据

其他专栏收录该内容

2 篇文章 0 订阅

订阅专栏

http://hi.baidu.com/nullbeta/blog/item/76e2781549d76e1d34fa418f.html

面对海量数据，传统的ETL(Extraction-Transformation-Loading的缩写，中文名称为数据提取、转换和加载)工具显得力不从心，主要是数据转换开销太大，在性能上无法满足海量数据的采集需求。下面向大家介绍四款开源的海量数据采集工具。

Facebook的Scribe

https://github.com/pcting/scribe/

LinkedIn的Kafka

http://sna-projects.com/kafka/downloads.php

淘宝的Timetunnel

http://code.taobao.org/project/view/411/

Hadoop的Chukwa

http://incubator.apache.org/chukwa/

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

jnan77

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

基于kettle实现数据采集

weixin_43821679的博客

08-18

5264

基于kettle实现数据采集1.kettle简介2.kettle实现不同数据库的数据采集3.kettle实现接口的数据采集 1.kettle简介 Kettle 是一款国外开源的 ETL 工具，纯 Java 编写，绿色无需安装，数据抽取高效稳定(数据迁移工具)。Kettle 中有两种脚本文件，transformation 和 job，transformation 完成针对数据的基础转换，job 则完成整个工作流的控制。下面两个案例是使用kettle7.1进行操作，安装过程不做详解，直接开整 2.kettle

大数据辅助工具--Flume 数据采集组件

weixin_44387652的博客

03-22

2111

大数据辅助工具--Flume 数据采集组件1、数据收集工具系统产生背景2、专业的数据收集工具2.1、Chukwa2.2、Scribe2.3、Fluentd2.4、Logstash2.5、Apache Flume3、Flume 概述3.1、Flume 概念3.2、Flume 版本介绍4、Flume 体系结构/核心组件4.1、概述4.2、Flume 核心组件4.2.1、Event4.2.2、Client4.2.3、Agent4.2.4、Source4.2.5、Agent 之 Channel4.2.6、Agent

参与评论您还未登录，请先登录后发表或查看评论

这7款高效爬虫工具&软件，非常实用！

最新发布

分享Python、数据分析、人工智能前沿知识

07-23

3409

在当今数据驱动的时代，自动化爬虫工具和软件成为了许多企业和个人获取数据的重要手段。这里会介绍6款功能强大、操作简便的自动化爬虫工具，用好了可以更高效地进行数据采集。

数据采集的开源软件

weixin_34202952的博客

03-06

630

https://github.com/dodev/RoadDataCollector A tool for collecting information from sensor devices. core - dodevgui - dotmeerlocaldb - naitharremotedb - mandarin6b0 ( https://github.com/mandarin6b0/s...

开源数据实时采集和ETL工具 streamsets

时刻学习

09-17

929

如何在CDH中安装和使用StreamSets - 云+社区 - 腾讯云

数据采集工具有哪些？数据采集软件有哪些免费下载

qq_787143156的博客

05-17

680

数据采集工具有哪些？随着互联网的发展数据的重要性也越来越重要，做电商的离不开数据的分析，做实体店也不离开数据的分析，做网站的也离不开数据的分析，做行业的也离不开数据的分析。只有知己知彼才能百战百胜。今天给大家分享一款免费的数据采集工具，为什么分享这款因为免费简单，只需要输入域名即可采集数据。详细参考图片教程。 1、服务器配置优化我们需要根据应用服务器的性能和并发访问的大小来规划应用服务器的数量。有一个使用原则：数据采集工具有哪些单个应用服务器的性能不一定是相似的，但数量必须足够，并且尽量有一

Flume 数据采集组件----概述

XiaodunLP的博客

02-12

707

1、数据收集工具/系统产生背景 Hadoop 业务的整体开发流程：任何完整的大数据平台，一般都会包括以下的基本处理过程： 数据采集 -- 数据 ETL -- 数据存储 -- 数据计算/分析 -- 数据展现其中，数据采集是所有数据系统必不可少的，随着大数据越来越被重视，数据采集的挑战也变的尤为突出。这其中包括：数据源多种多样数据量大，变化快如何保证数据采集的...

阿里主流开源框架大汇总

公众号：微观技术

01-18

7976

Fastjson fastjson 是一个性能很好的 Java 语言实现的 JSON 解析器和生成器。快速FAST (比其它任何基于Java的解析器和生成器更快，包括jackson）；强大（支持普通JDK类包括任意Java Bean Class、Collection、Map、Date或enum）；零依赖（没有依赖其它任何类库除了JDK）。地址：https://github.com/alibab...

大数据简介：从数据到大数据，数据技术&工具的演变

weixin_46260673的博客

10-19

1330

Golang优秀开源项目汇总, 10大流行Go语言开源项目, golang 开源项目全集(golang/go/wiki/Projects), GitHub上优秀的Go开源项目...

热门推荐

weixin_33836874的博客

05-08

1万+

Golang优秀开源项目汇总（持续更新。。。）我把这个汇总放在github上了，后面更新也会在github上更新。 https://github.com/hackstoic/golang-open-source-projects 。欢迎fork， star ， watch，提issue。资料参考来源：http://studygolang.com/projects 监控...

OpenYspider：千万级图片爬虫，视频爬虫[开源版本] Image Spider

02-05

OpenYspider 3.1 千万级图片，视频爬虫[开源版本]： tujidao.com ， meinvla.net ：注： tangyun365.com ， yalayi.com ， rosmm88.com ， mzsock.com ， m7.22c.im请切换至1.x分支查看。 3.1版本新特性 Spring Boot版本升级： 2.2.1 => 2.3.1 ； MySQL版本升级： 5.7 => 8.0 ；适应Oracle 工程实例，整洁架构；数据库全量脚本规范化；使用部分网站使用到了selenium和chromedriver，需要下载一下驱动程序，注意需要和chrome版

Flume：开源的数据采集系统详细介绍

Java搜索工程技术栈

05-29

951

在大数据时代背景下，如何采集出有用的信息已经是大数据发展的关键因素之一，数据采集可以说是大数据产业的基石。Flume作为开源的数据采集系统，受到了业界的认可与广泛应用。本文将带你了解Flume的基本架构以及使用案例等。 01 Flume简介 1.1 Flume是什么？ Flume是Apache Software Foundation的顶级项目。它是一个分布式，可靠且可用的系统，主要用于高效地收集，聚合大量日志数据并将其从不同的源移动到集中式数据存储中。 Flume的使用不仅限于日志数据聚合。由于数据

运维自动化之12 - 开源数据采集技术

weixin_30348519的博客

06-10

135

智能运维转载于:https://www.cnblogs.com/micfox/p/10995862.html

猿创征文｜大数据开发必备的数据采集工具汇总

Chad_it的博客

11-14

3996

随着大数据近几年的发展，已经在国内外的开发市场积累出一大批大数据开发的技术型人才，不论是批处理还是流处理各大公司都研究出一套专门解决自身公司业务的大数据解决方案。它们是市面上大数据组件的融合碰撞产生的适合自身的。在数据处理的最前端一定是数据的采集技术，数据的采集技术也是百家争鸣，一片蓝海，对于一个优秀的大数据开发工程师，我们怎么将这些技术栈灵活的应用，前提是我们要对其认真的研究，理解其最佳的应用场景，今天我来带大家认识5种数据采集工具。

推荐一款开源Scada,数据采集必备

scadaadmin的博客

06-03

1742

PySCADA的核心是一个基于HTML5的HMI，不仅确保现代性，还确保与各种设备的无缝集成。该框架通过提供对广泛工业协议的支持，进一步巩固其功能。这些包括Modbus TCP/IP、RTU、ASCII和Binary，让用户可以轻松地与不同的设备和系统进行接口。

大规模网站数据采集的完整开源解决方案

weixin_48738961的博客

10-06

1544

在大规模数据采集场景下，往往面临诸多困难。现在，我们可以使用或者参考学习开放源代码的成熟解决方案 PulsarRPA。

大规模 Web 数据采集的终极开源方案 - PulsarRPA

weixin_48738961的博客

10-02

3518

PulsarRPA 是大规模采集 Web 数据的终极开源方案，可满足几乎所有规模和性质的网络数据采集需要。大规模提取 Web 数据非常困难。网站经常变化并且变得越来越复杂，这意味着收集的网络数据通常不准确或不完整，PulsarRPA 开发了一系列尖端技术来解决这些问题。

开源一款监控数据采集器，啥都能监控

n9ecommunity的博客

06-24

1523

简介 Categraf 是一个监控采集 Agent，类似 Telegraf、Grafana-Agent、Datadog-Agent，希望对所有常见监控对象提供监控数据采集能力，采用 All-in-one 的设计，不但支持指标采集，也希望支持日志和调用链路的数据采集。来自快猫研发团队，和 Open-Falcon、Nightingale 的研发是一拨人。 categraf的代码托管在两个地方： github：https://github.com/flashcatcloud/categrafgitlink：ht

最好的开源数据采集工具

03-28

5. WebHarvy：Windows平台上的一款数据采集工具，可以从网页中自动提取数据，并保存到Excel、CSV等文件中。 6. Octoparse：一款跨平台的数据采集工具，可以从网页中提取结构化数据，并导出到Excel、CSV、JSON等格式...