数据工具
文章平均质量分 91
deepdata_cn
深耕数据行业。
展开
-
数据去重工具(Dedupe)
Dedupe主要用于数据去重和实体识别,可以帮助在构建知识图谱时处理数据中的重复信息,提高数据的质量和准确性。原创 2024-09-30 07:45:00 · 1129 阅读 · 0 评论 -
基于Web的PDF处理工具(Stirling PDF)
Stirling PDF:这是一个基于Web的PDF处理工具,可以在本地通过Docker托管。它提供了拆分、合并、转换、重新组织、添加图像、旋转、压缩等功能。原创 2024-09-25 07:45:00 · 1175 阅读 · 0 评论 -
PDF阅读和解析(MuPDF)
MuPDF:这是一个专注于提供快速、小巧且功能强大的PDF处理能力的开源PDF阅读器和解析库。它支持多种操作系统,提供了C API,便于其他编程语言的绑定。原创 2024-09-23 07:30:00 · 1084 阅读 · 0 评论 -
深度数据管理(IBM InfoSphere QualityStage)
IBM InfoSphere QualityStage可在内部部署或云中使用,为数据清理和管理提供了广泛而全面的方法。具有深度数据分析工具,能够帮助用户理解数据的内容、质量和结构;利用机器学习技术可以自动标记数据并识别潜在问题。提供 200 多个内置的数据质量规则,用于控制不良数据的接收,还可以将问题路由到合适的人进行处理。数据分类功能能够识别个人识别信息,有助于保护数据安全和消除重复记录。适合对数据安全性和质量要求较高的企业,如金融、政府等行业。原创 2024-09-21 07:45:00 · 1050 阅读 · 0 评论 -
数据分析平台(Alteryx)
Alteryx可以加速或自动化业务流程,并支持地理空间和预测解决方案。其平台有助于组织快速、高效地回答业务问题,可作为数字化转型或自动化计划的重要组成部分。在数据质量方面,Alteryx 提供了数据清洗、转换和验证的功能,能够帮助用户快速处理和优化数据。此外,它还具有直观的可视化界面,方便用户进行操作和分析。适用于需要快速处理和分析数据的企业,尤其是那些希望通过自动化流程提高数据处理效率的企业。例如,市场调研公司、电商企业等,可以使用 Alteryx 来处理大量的市场数据、销售数据等,以便及时做出决策。原创 2024-09-20 07:45:00 · 998 阅读 · 0 评论 -
数据质量工具(Informatica Data Quality)
Informatica Data Quality提供全面的数据质量解决方案,擅长数据标准化、验证、丰富、重复数据消除和整合。对于企业级的数据质量治理项目,它能够确保在整个组织内实现数据质量的统一管理和监控。具有基于角色的功能、异常管理、对问题的人工智能洞察、预构建的规则和加速器等功能,可帮助用户快速发现和解决数据质量问题。此外,还提供了针对云数据的版本,适用于将数据存储在 Microsoft Azure 和 AWS 等云平台的企业。原创 2024-09-20 07:30:00 · 1005 阅读 · 0 评论 -
数据质量工具(Talend Data Quality)
Talend Data Quality提供全面的数据质量评估、清洗和监控功能。能够检测和修复数据中的错误、不一致性和重复数据,确保数据的准确性和完整性。原创 2024-09-19 07:45:00 · 973 阅读 · 0 评论 -
分布式流处理平台(Apache Kafka)
Apache Kafka:分布式流处理平台,可用于实时数据集成和流数据处理。支持高吞吐量的数据传输和处理,适用于实时数据分析和事件驱动架构。最初由LinkedIn开发并开源,于2011年开始投入使用,后来成为Apache软件基金会的一个顶级项目。其设计初衷是为了满足LinkedIn公司内部对大规模实时数据处理和传输的需求。原创 2024-09-18 07:45:00 · 1017 阅读 · 0 评论 -
数据集成平台(ETLCloud)
ETLCloud:一款国产的集成了ETL/ELT/CDC的全域数据集成平台,提供了广泛的应用及数据库链接器,能够满足对离线和实时数据集成的需求。原创 2024-09-18 07:30:00 · 1005 阅读 · 0 评论 -
分布式数据集成框架(Apache Gobblin)
Apache Gobblin:一套分布式数据集成框架,旨在简化大数据集成工作当中的各类常见任务,包括数据流与批量生态系统的提取、复制、组织与生命周期管理。主要用于大规模数据的抽取、转换和加载(ETL)。原创 2024-09-17 07:45:00 · 809 阅读 · 0 评论 -
数据集成框架(Apache Camel)
Apache Camel:一个开源框架,用于数据集成和企业应用集成,支持多种协议和数据格式,可以轻松地与现有的系统和应用程序集成。原创 2024-09-17 07:30:00 · 1278 阅读 · 0 评论 -
数据可视化解决方案(AntV)
AntV是蚂蚁金服全新一代数据可视化解决方案。需要一定的技术含量进行二次开发。它采用的 the grammar of graphics 语法,与其他可视化库相比有其独特之处,为用户提供了专业可靠、具有无限可能的数据可视化实践。原创 2024-09-16 07:45:00 · 1747 阅读 · 0 评论 -
开源数据可视化平台的选择
数据可视化平台可以将复杂的数据以图表、图形等直观的形式展现出来,使数据的结构、趋势和关系一目了然。例如,通过柱状图可以清晰地比较不同类别数据的大小;折线图则能直观地反映数据随时间的变化趋势。帮助非专业数据分析师的用户,如企业管理者、业务人员等,快速理解数据的含义,无需深入了解数据的底层结构和复杂的统计分析方法。借助可视化工具的交互功能,用户可以动态地探索数据,从不同角度观察数据的分布和变化。例如,通过缩放、筛选和钻取等操作,深入分析特定时间段或特定数据子集的趋势和模式。原创 2024-09-14 08:58:50 · 898 阅读 · 0 评论 -
数据集成平台(Talend Open Studio)
Talend Open Studio是一个强大的数据集成平台,提供了丰富的功能和工具,用于设计、开发和管理数据集成流程。它支持多种数据源和数据格式,具有可视化的设计界面,方便用户进行数据转换和集成操作。此外,Talend Open Studio 还提供了数据质量检查、数据清洗等功能,帮助用户确保数据的准确性和完整性。2006 年推出了 Talend Open Studio 的第一个版本。原创 2024-09-15 07:30:00 · 1014 阅读 · 0 评论 -
系统克隆工具(Clonezilla)
Clonezilla是一个开源的系统克隆工具,它可以对整个系统或单个分区进行克隆。由台湾的NCHC自由软件实验室开发。Clonezilla Live:适用于单台计算机,可以将存储介质或单个分区镜像到多种类型的存储位置,包括SSH服务器、Samba网络共享等。它还支持直接将一个存储介质上的数据克隆到另一个存储介质上。Clonezilla服务器版(SE):利用多播技术,可以同时克隆多台计算机,这一功能由UDPcast工具支持。原创 2024-09-14 07:45:00 · 1978 阅读 · 0 评论 -
Linux 系统备份程序(TimeShift)
TimeShift是Linux 系统备份程序,类似于 Windows 中的系统还原和 macOS 中的 Time Machine,通过定期获取文件系统的增量快照,可将系统恢复到以前的状态,提供 rsync 模式和 btrfs 模式。Timeshift 允许用户创建系统快照,以便在出现问题时能够恢复到之前的状态。Timeshift 支持使用 Rsync 或 BTRFS 两种方式来创建快照,提供了类似于 Windows 系统中的系统还原功能和 macOS 中的时间机器工具。原创 2024-09-14 07:30:00 · 891 阅读 · 0 评论 -
数据集成框架(Apache InLong)
Apache InLong(应龙):一站式的海量数据集成框架,提供自动、安全、可靠和高性能的数据传输能力,方便业务构建基于流式的数据分析、建模和应用。InLong 能够方便业务快速构建基于流式的数据分析、建模和应用,广泛应用于广告、支付、社交、游戏、人工智能等各个行业领域。InLong 项目最初由腾讯大数据团队捐献到 Apache 孵化器,并于 2022 年 6 月正式毕业成为 Apache 顶级项目。原创 2024-09-13 07:45:00 · 960 阅读 · 0 评论 -
数据处理和分发(Apache NiFi)
Apache NiFi 是一个易于使用、功能强大而且可靠的数据处理和数据分发系统。基于 web 图形界面,通过拖拽、连接、配置完成基于流程的编程,实现数据采集等功能。原创 2024-09-13 07:30:00 · 719 阅读 · 0 评论 -
备份工具(Bup)
Bup:基于 git packfile 格式,提供快速增量存储、全局重复数据删除,适用于 Linux、FreeBSD、NetBSD、macOS、Solaris 或 Windows(带有 Cygwin 和 WSL)等。原创 2024-09-12 07:45:00 · 594 阅读 · 0 评论 -
数据集成平台(Apache SeaTunnel)
Apache SeaTunnel:分布式、高性能、易扩展的数据集成平台,架构于 Apache Spark 和 Apache Flink 之上,用于海量数据(离线&实时)同步和转化。前身是 waterdrop(中文名:水滴),2021 年 10 月 12 日更名为 SeaTunnel,2021 年 12 月 9 日正式成为 Apache 孵化器项目,2022 年 3 月 18 日社区发布首个 Apache 版本 v2.1.0 ,截至目前已发布了 39 个版本,并经过大量企业生产使用。原创 2024-09-12 07:30:00 · 1151 阅读 · 0 评论 -
数据同步工具(Addax)
Addax:异构数据源离线同步工具,最初来源于阿里的 DataX,致力于实现包括关系型数据库、HDFS、Hive、HBase、FTP 等各种异构数据源之间稳定高效的数据同步功能。原创 2024-09-11 07:45:00 · 1211 阅读 · 0 评论 -
文件备份工具(BackInTime)
BackInTime:易于使用的 GNU/Linux 文件和文件夹备份工具,提供命令行工具和 QT5 GUI,使用 rsync 手动或计划执行快照,并可通过 SSH 在本地或远程存储快照。原创 2024-09-11 07:30:00 · 1059 阅读 · 0 评论 -
批流一体数据同步(TIS)
TIS:基于批量数据处理(DataX)和流式数据处理(Flink-CDC、Chunjun)一体,提供简单易用的操作界面,降低用户实施各端(MySQL、PostgreSQL、Oracle、Elasticsearch、ClickHouse、Doris 等)之间数据同步的实施门槛。原创 2024-09-10 07:45:00 · 1240 阅读 · 0 评论 -
数据提取工具(MinerU)
MinerU可以从PDF格式的学术论文、电子书籍中快速提取关键信息,如研究方法、实验数据、结论等,并将其转换为易于整理和分析的格式,帮助科研人员高效地梳理文献内容,节省时间和精力。例如,在合同审查中,MinerU可以提取合同的关键条款,如双方的权利义务、违约责任等,帮助律师快速了解合同的主要内容和风险点。- 财务报表分析:能够从PDF格式的财务报表中提取关键的财务数据,如资产、负债、收入、利润等,并进行结构化处理,方便金融分析师进行财务比率分析、趋势分析等,以评估企业的财务状况和经营绩效。原创 2024-09-10 07:30:00 · 924 阅读 · 0 评论 -
数据治理工具(Apache Atlas)
Apache Atlas为具有数据密集型平台的公司提供基本的元数据管理和数据治理功能,主要为在 Hadoop 集群中使用而设计,但也可与 Hadoop 生态系统之外的工具和进程交换元数据以实现集成。它具有灵活的类型系统来定义和管理元数据对象的模型,能自动对数据资产和数据沿袭信息进行编目,并与 Apache Ranger 数据安全框架集成实现访问控制和数据屏蔽等功能。Apache Atlas 是一个开源的企业级数据治理和元数据管理工具。原创 2024-09-08 07:45:00 · 1196 阅读 · 0 评论 -
存储备份(Shield)
Shield:专为保护关键基础设施数据而设计的先进数据保护解决方案,提供一套用于有效地调度存储系统自动备份的工具集,包括 PostgreSQL、MySQL、Consul、Redis 和 MongoDB 等,还支持在众多云提供商中存储备份。是一种用于数据保护和灾难恢复的重要技术解决方案。Shield是开源的。原创 2024-09-08 07:30:00 · 815 阅读 · 0 评论 -
绘图工具(Mermaid)
Mermaid 是一个用于绘制流程图、时序图、甘特图等的开源工具。它使用类似 Markdown 的语法进行图表描述,可以在网页中直接使用,也可以通过命令行工具生成图像。Mermaid 支持与多种文档平台和代码托管平台集成,如 GitHub、GitLab 等。在项目文档编写、技术博客创作等场景中非常有用。例如,可以在项目的 README 文件中使用 Mermaid 绘制流程图来介绍项目的工作流程,或者在技术博客中使用 Mermaid 绘制时序图来解释复杂的交互过程。原创 2024-09-07 07:45:00 · 1075 阅读 · 0 评论 -
代码生成图表(PlantUML)
PlantUML 是一个可以用简单的文本语言来描述 UML 图表(如类图、时序图、活动图等)的开源工具。它支持多种编程语言的代码嵌入,可以从代码中的注释生成图表,也可以直接在文本描述中引用代码片段。生成的图表可以以多种格式输出,如 PNG、SVG 等。在软件开发过程中,用于快速创建和共享软件设计的可视化表示。例如,开发团队可以使用 PlantUML 来描述系统的类结构、对象之间的交互流程等,方便团队成员之间的沟通和理解。同时,它也可以用于文档生成,将图表直接嵌入到技术文档中,提高文档的可读性和可理解性。原创 2024-09-07 07:30:00 · 1002 阅读 · 0 评论 -
开源备份软件(Bareos)
Bareos是高可靠、跨网络的开源备份软件,可用于基于网络备份、归档和恢复数据,支持多种客户端和存储,提供多种功能特性。原创 2024-09-06 07:45:00 · 1784 阅读 · 0 评论 -
图表绘制软件(Graphviz)
Graphviz 是一个用于绘制图表的开源软件包。它可以根据文本描述的图形结构自动生成图形,非常适合从代码生成各种类型的图表,如流程图、结构图等。可以使用特定的图形描述语言(如 DOT 语言)来描述图形,然后 Graphviz 工具会将其渲染为图像格式(如 PNG、SVG 等)。广泛应用于软件设计、数据库设计、网络架构等领域,帮助开发者可视化复杂的系统结构和流程。例如,在软件架构设计中,可以用 Graphviz 绘制模块之间的依赖关系图,以便更好地理解和沟通系统的整体结构。原创 2024-09-06 07:30:00 · 1710 阅读 · 0 评论 -
企业级备份(BackupPC)
BackupPC:支持 Linux、Windows 和 macOS 的开源企业级备份系统,提供易于管理的 web 界面,支持重复数据删除以提高存储效率,支持压缩对 CPU 的影响最小。BackupPC 最初是为 Linux 平台设计的备份工具,专注于为 Linux 系统提供高效的备份解决方案,能有效应对 Linux 系统多样的版本和复杂的环境,解决了 Linux 系统备份的难题。随着时间推移,BackupPC 不断发展和完善其功能。原创 2024-09-05 07:45:00 · 1598 阅读 · 0 评论 -
数据备份工具(BorgBackup)
BorgBackup:提供高效、安全的数据备份,支持压缩、身份验证、加密,具备重复数据删除技术,节省空间,适用于日常备份。BorgBackup是开源的。它遵循BSD许可证。BSD许可证是一种对开发者友好的开源许可证,允许用户自由地使用、修改和分发软件源代码,这使得BorgBackup在开源社区中得到了广泛的应用和发展。原创 2024-09-04 07:30:00 · 1599 阅读 · 0 评论 -
数据集成工具(云雀Yunque)
Yunque(云雀):数据集成工具,实现异构数据源的整合,帮助企业构建数据仓库、数据湖等应用架构。其框架设计采用 client 端和 server 端分布式架构,master-slave 的架构模型。master 负责接受用户的请求,通过轮询的方式,将任务转发给 slave 进行数据处理,其中 server 端一个 thread 负责一个 task 进行任务处理。server 端的架构分为 reader、channel、writer 三部分。原创 2024-09-03 07:45:00 · 1143 阅读 · 0 评论 -
备份程序(Restic)
Restic:支持 Linux、macOS 和 Windows 等操作系统,是一个快速、安全的开源备份程序。Restic最初是由开发者MichaelEischer发起的个人项目。其设计目标是提供一种快速、高效、安全且开源的备份解决方案,以满足不同用户和场景对数据备份的需求。在项目早期,Restic专注于核心功能的开发和完善,包括备份与恢复机制的构建、数据加密算法的选择与实现等。通过不断优化代码和算法,Restic逐渐提高了备份和恢复的速度与效率,同时确保了数据的安全性。原创 2024-09-03 07:30:00 · 1416 阅读 · 0 评论 -
数据集成平台(Streamsets)
Streamsets 是一款企业级的开源数据集成平台。通过拖拽式的可视化界面实现数据管道的设计和定时任务调度,数据源支持 MySQL、Oracle 等结构化和半/非结构化,目标源支持 HDFS、Hive、HBase、Kudu、Solr、Elasticsearch 等。原创 2024-09-02 07:30:00 · 1095 阅读 · 0 评论 -
数据集成框架(纯钧chunjun)
纯钧(chunjun)是一款稳定、易用、高效、批流一体的开源数据集成框架,目前基于实时计算引擎 Flink 实现多种异构数据源之间的数据同步与计算,已在上千家公司部署且稳定运行。“纯钧”被记载于《越绝书》,书中描述其为越王勾践所藏宝剑,由铸剑大师欧冶子所铸。此剑被形容为 “手振拂,扬其华,淬如芙蓉始出。观其钣,烂如列星之行;观其光,浑浑如水之溢于塘;观其断,岩岩如琐石;观其才,焕焕如冰释。原创 2024-09-02 07:45:00 · 1718 阅读 · 0 评论 -
分布式数据集成平台(Debezium)
Debezium 是一个开源的分布式平台,主要用于捕获数据库的变更事件,并将这些变更实时地流式传输到其他系统,以实现数据同步、监控和集成等目的。2016 年:Debezium 正式开源,支持 MySQL 数据库的变更捕获,这是其第一个支持的数据库。通过抽取数据库日志来获取变更,实现了对 MySQL 数据的全量读取和增量读取。原创 2024-09-01 07:30:00 · 1470 阅读 · 0 评论 -
开源数据同步中间件(Dbsyncer)
Dbsyncer 是一款开源的数据同步中间件。为用户提供了在多种数据库和数据源之间进行同步的解决方案。- 支持多种同步场景,包括常见的关系型数据库(如 MySQL、Oracle、SQL Server、PostgreSQL),以及非关系型数据库(如 Elasticsearch)、Kafka、文件等,满足不同场景下的数据同步需求。- 支持上传插件自定义同步转换业务,用户可通过编写插件实现自己的同步转换逻辑,增加了数据同步的灵活性和定制化程度。原创 2024-09-01 07:45:00 · 640 阅读 · 0 评论 -
MySQL同步工具(Canal)
Scidavis是一款免费、开源的跨平台科研绘图软件,主要用于科学数据的分析和可视化。Scidavis开发始于2007年,是qtiplot的分支,而qtiplot则是科研绘图软件Origin的克隆。qtiplot开发于2004年,由Ion Vasilief发起,直到2006年5月Knut Franke和Tilman Hoener zu Siederdissen加入该项目,之后Roger Gadiou正式加入成为主要的文档撰写人。原创 2024-09-01 07:30:00 · 613 阅读 · 0 评论 -
备份软件(Duplicati)
Duplicati是一款免费、开源、跨平台的备份软件。Duplicati最初是作为一个开源项目启动,旨在为用户提供一种免费、灵活且功能强大的备份解决方案。它支持多种操作系统,包括Windows、macOS和Linux,这使得不同平台的用户都能使用它来进行数据备份。随着时间的推移,Duplicati不断添加新的功能和特性。例如,它支持AES-256加密技术,对备份的数据进行加密处理,保障数据的安全性和隐私性;实现了增量备份功能,首次备份时上传完整数据,之后只上传修改过的部分,节省带宽和存储空间;原创 2024-08-31 07:30:00 · 1296 阅读 · 0 评论