
大数据
文章平均质量分 76
介绍和分享大数据相关的工具和产品,适合初学者快速入门大数据
遇码
苏州研途教育科技有限公司数据信息部高级经理
获得2022年苏州工业园区高技能大赛人工智能算法训练与应用开发赛项三等奖
“苏州市技术能手”称号
亚马逊云科技社区苏州UGL、百度飞桨苏州领航团团长
创立遇码开源技术社区
自媒体博主
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
大数据学习地图:从单机到集群,奠定分布式存储与分布式计算的基础
电脑经常卡顿,我们很自然地会想到换一台配置更高的电脑。对企业而言也一样,例如当网站用户增加,并发就会增加,服务器资源(CPU、内存、磁盘)不够,那就换一台配置更高的服务器。然而有一个现实问题摆在面前,单台服务器的配置终究是有上限的。原创 2025-04-30 13:19:13 · 342 阅读 · 0 评论 -
大数据学习地图:纵观大数据技术发展史,看清大数据本质
前段时间受邀为某高校研一学生分享大数据最新技术,特以此为契机重新梳理了大数据技术发展史,最终形成了一个为适用于初学者的大数据学习地图,希望可以帮助更多的人入门大数据相关技术。原创 2025-04-25 11:12:48 · 645 阅读 · 0 评论 -
如何存下40亿个不重复数字
如何存下40亿个不重复数字?作为一名数据工作者,你会如何设计表模型呢,带着这个问题我们一起来探索最佳方案。原创 2025-04-18 14:50:52 · 354 阅读 · 0 评论 -
你真的了解数据仓库、数据湖、数据湖仓吗?五分钟带你了解数据湖仓的演变
数据分析是现代企业和组织决策过程中不可或缺的一部分,数据分析技术经过数十年的发展,需求场景从 BI 报表到数据探寻、实时预测、用户画像等不断丰富,技术架构经历从数据仓库数据湖、到数据湖仓的演进,并走向数据湖仓一体架构,通过一套架构服务多样化的分析场景。Lakehouse 兼具数据仓库与数据湖的优势,是下一代数据分析架构的演进趋势;原创 2025-04-18 14:46:34 · 925 阅读 · 0 评论 -
一种高性能、S3兼容的对象存储,专为大规模AI/ML、数据湖和数据库工作负载而构建——MinIO
MinIO 是一个高性能的、S3 兼容的分布式对象存储系统。它专为大规模 AI/ML、数据湖和数据库工作负载而构建。并且它是由软件定义的存储,不需要购买任何专有硬件,就可以在云上和普通硬件上拥有分布式对象存储。并且 100% 开源,主要许可证是 GNU AGPL v3。MinIO 的不同之处在于它从一开始就被设计为私有/混合云对象存储的标准。因为 MinIO 是专门为对象而构建的,所以单层架构可以毫不妥协地实现所有必要的功能。结果是一个同时具有高性能、可扩展性和轻量级的云原生对象服务器。原创 2025-04-10 09:59:12 · 648 阅读 · 0 评论 -
大语言模型开发框架——LangChain
LangChain是一个开发由语言模型驱动的应用程序的框架,它提供了一套工具、组件和接口,可以简化构建高级语言模型应用程序的过程。上下文感知将语言模型与上下文(提示语指令、举例、响应的内容等)源连接起来推理依赖语言模型完成推理(包括如何根据提供的上下文进行回答、采取什么样的行动等等)::: tip就像做Web开发一样,使用Java语言开发我们会首选Spring Boot框架,使用Python语言开发我们会首选Django框架,使用框架可以大大简化我们的开发过程。原创 2025-04-02 18:20:48 · 709 阅读 · 0 评论 -
一个神奇的开源大数据必备工具——开源图数据库Apache HugeGraph
HugeGraph是一款易用、高效、通用的开源图数据库系统,实现了Apache TinkerPop3框架及完全兼容Gremlin查询语言,具备完善的工具链组件,助力用户轻松构建基于图数据库之上的应用和产品。HugeGraph支持百亿以上的顶点和边快速导入,并提供毫秒级的关联关系查询能力(OLTP), 并支持大规模分布式图分析(OLAP)。原创 2025-04-02 18:18:21 · 984 阅读 · 0 评论 -
单机快速部署开源、免费的分布式任务调度系统——DolphinScheduler
看了DolphinScheduler的介绍,不知道有没有引起你的兴趣,有没有想要上手体验一番呢。本文则主要为大家介绍DolphinScheduler的单机部署方式,方便大家快速体验。原创 2025-04-01 09:48:29 · 728 阅读 · 0 评论 -
免费、开源:五分钟告诉你什么是DolphinScheduler
Apache DolphinScheduler是一个分布式易扩展的可视化DAG工作流任务调度开源系统,旨在解决复杂的大数据任务依赖关系,并为应用程序提供数据和各种 OPS 编排中的关系。DolphinScheduler 以 DAG(Directed Acyclic Graph,DAG)流式方式组装任务,可以及时监控任务的执行状态,支持重试、指定节点恢复失败、暂停、恢复、终止任务等操作。解决数据研发ETL依赖错综复杂,无法监控任务健康状态的问题。原创 2025-04-01 09:46:28 · 926 阅读 · 0 评论 -
一款大数据必备开源工具——可视化监控Grafana
Grafana是一个开源的数据可视化和监控平台,可以通过创建仪表盘和图表来实时监控、分析和可视化各种数据源的数据。查询、可视化和理解数据,并获取数据警报,无论数据存储在何处。在 Grafana,您可以通过美观、灵活的数据面板创建、探索和共享所有数据。原创 2025-03-27 19:06:02 · 839 阅读 · 0 评论 -
一款超级好用且开源免费的数据可视化工具——Superset
Apache Superset 是一个现代的企业级商业智能Web 应用程序。它快速、轻量、直观,并加载了各种选项,使所有技能的用户都可以轻松探索和可视化他们的数据,从简单的饼图到高度详细的 Deck.gl地理空间图表。Superset是由Airbnb开发并维护的一个开源项目,旨在提供直观、可视化的方式来探索和展示数据。Superset允许你创建个性化的仪表盘和报告,将多个图表和数据切片组合在一起,形成一个完整的数据故事。这使得你能够以清晰、直观的方式向他人展示你的数据发现。原创 2025-03-27 19:00:36 · 1035 阅读 · 0 评论 -
扬眉吐气:高度兼容 MySQL的国产数据库——OceanBase社区版
OceanBase是由蚂蚁集团完全自主研发的国产原生分布式数据库。为关键业务负载打造的分布式数据库我们来说说OceanBase有多强悍吧。从2010年开始,连续10年平稳支撑了双11(几秒多少亿的成交量,其它公司还真没有这样的需求)在TPC-C和TPC-H测试上都刷新了世界纪录的国产原生分布式数据库(不仅仅是刷新记录,简直就是不讲武德地把世界纪录拔高到遥不可及的高度,国产数据库要眉吐气了)助力金融、政府、运营商、零售、互联网等多个行业的客户实现核心系统升级(还有啥不放心的)原创 2025-03-26 09:50:44 · 1030 阅读 · 0 评论 -
免费、开源:五分钟带你了解什么是StarRocks
StarRocks 是新一代极速全场景 MPP (Massively Parallel Processing) 数据库。StarRocks 的愿景是能够让用户的数据分析变得更加简单和敏捷。用户无需经过复杂的预处理,就可以用 StarRocks 来支持多种数据分析场景的极速分析。StarRocks 兼容 MySQL 协议,支持标准 SQL 语法,易于对接使用,全系统无外部依赖,高可用,易于运维管理。原创 2025-03-26 09:48:14 · 1097 阅读 · 0 评论 -
动手实践:单机安装高性能列式存储数据库ClickHouse
最近有很多粉丝私信我问各种问题,首先呢非常高兴大家对我的信任,我也会尽量抽出时间为大家答疑解惑。但是需要说明的是,我不可能遇到过所有的问题,有时候只能给给大家一些解决问题的思路,望大家谅解。一看就会,一做就废!。在此也给初学者们一个建议,就是多动手,不要试图通过问来消除心中所有的疑问。回归正题,前面为大家介绍了什么是ClickHouse,如果只是看了一下介绍是很难有一个深刻认知的。本文我将会带领大家完成ClickHouse的单机部署。原创 2025-03-25 13:26:30 · 1038 阅读 · 0 评论 -
免费、开源:五分钟告诉你什么是ClickHouse
最近发现ClickHouse依旧是大数据领域一个绕不开的话题,特用本文专门为大家介绍一下开源OLAP数据库——ClickHouse。原创 2025-03-25 13:22:36 · 578 阅读 · 0 评论 -
阿里开源的免费数据集成工具——DataX
DataX是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。简单说,DataX也是一款数据集成工具。原创 2025-03-24 11:48:22 · 1359 阅读 · 0 评论 -
一款大数据必备开源可视化ETL工具——Kettle
前面为大家介绍了SeaTunnel,它可以方便我们快速实现多源数据的集成,还不了解的同学可以关注我后查看文章。本文则为同学们推荐另外一款开源ETL工具——Kettle。ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。简单说就是我的数据在哪里?我要把我的数据变成什么样?最后再把数据存放到哪里?原创 2025-03-24 11:45:57 · 967 阅读 · 0 评论 -
免费、开源:大数据必学数据仓库Hive:基础语法
很多同学都会有这样一种认知,大数据技术很难。通常我们觉得某个技术很难,更多时候并不在于技术本身有多难,而是因为我们的“无知”,想当然的认为这个技术很难,然后就失去了对该技术进一步学习的欲望。原创 2025-03-20 09:58:59 · 300 阅读 · 0 评论 -
大数据必学免费、开源分布式数据库——Apache Hive
Hive是大数据开发、分析领域无法绕开的一个话题。我将分认识Hive、快速部署、快速入门等几个模块为同学们详细地介绍Hive,期望可以为刚刚接触大数据领域的同学们建立一个初步的认知。原创 2025-03-19 09:48:38 · 1062 阅读 · 0 评论 -
和Linux操作十分相似的Hadoop的HDFS文件系统你会吗?
Hadoop 是一个分布式系统基础架构,由 Apache 基金会开发。通俗来讲,Hadoop用来解决海量数据的存储和大规模数据的计算问题。现在我们说到Hadoop也指Hadoop整个生态圈,包括HDFS、MapReduce、Hbase、Hive、ZooKeeper等成员。MapReduce用于大规模数据集的并行计算HDFS分布式文件系统,用于海量数据的存储HDFS又称Hadoop分布式文件系统,是适合运行在通用硬件上的分布式文件系统。HDFS是一个高度容错性的系统,可以部署在廉价的机器上。原创 2025-03-19 09:46:50 · 912 阅读 · 0 评论 -
踩坑完毕:手把手带你使用Flink尝鲜Paimon入门案例(强烈建议收藏)
本文为大家讲解如何使用Flink完成Paimon官方的入门案例,建议大家收藏(对英文文档有恐惧感)。原创 2025-03-14 15:42:29 · 2679 阅读 · 0 评论 -
免费、开源:五分钟告诉你什么是Paimon
首先我们来看看Paimon的前世今生吧。Paimon原名是Flink Table Store(简称FTS),最初是Flink社区孵化的一个子项目,该项目的本意是想提供一个 Flink 完全内置的存储,解决实时、近实时、Queue、Table Format 的所有问题,结合 Flink + 这个内置存储,提供 Materialized View 的自动流处理,直接提供查询服务,打造一个完整的 Streaming DB。原创 2025-03-14 15:36:25 · 1072 阅读 · 0 评论 -
基于Flink CDC实现Mysql实时同步到Doris系列教程五:Flink CDC提交任务并验证
本文也是该系列教程的最后一篇,期望本系列教程可以实实在在的帮助到你。本文将介绍如何把YAML任务文件使用提交到Flink环境中,最后我们再验证doris数据库中的数据,查看是否实时可查询。本系列教程到这里就结束了,用非常有限的图文带领大家体验了Flink CDC的能力。但是对于我们个人的学习而言则才刚刚开始。但是也希望大家可以理解,大家的环境不同、操作不同,我也没有办法一一帮助大家解决所有的问题,期望大家遇到问题不要着急,慢慢来,解决问题的过程也是深度学习的过程。最后再次强调——多动手。原创 2025-03-13 16:41:33 · 1210 阅读 · 0 评论 -
基于Flink CDC实现Mysql实时同步到Doris系列教程四:Pipeline的YAML文件编写
在第三部分——Flink CDC环境的部署的结尾已经提到了需要把代表任务的YAML文件作为参数提交到Flink环境中,本文我们则重点介绍Pipeline的YAML文件的详情。原创 2025-03-13 16:30:34 · 427 阅读 · 0 评论 -
基于Flink CDC实现Mysql实时同步到Doris系列教程三:Flink CDC环境的部署
准备了这么久,终于轮到我们本系列教程的主角——FlinkCDC登场了。本文将重点为大家介绍FlinkCDC的部署,本次教程我们选择单机部署。原创 2025-03-13 16:28:46 · 547 阅读 · 0 评论 -
基于Flink CDC实现Mysql实时同步到Doris系列教程二:部署Mysql和Doris
本教程需要用到Mysql和Doris。如果您已经具备了Mysql和Doris环境,则可以跳过本教程。如果您本地还没有Mysql和Doris环境,则本文会带领大家完成Mysql和Doris环境的部署。原创 2025-03-12 11:30:02 · 358 阅读 · 0 评论 -
基于Flink CDC实现Mysql实时同步到Doris系列教程一:Flink环境的部署
前面为大家介绍了Flink CDC,我们已经知道Flink CDC 是一个基于流的数据集成工具。本文开始,将会手把手的带领大家动手完成把Mysql的数据实时同步到Doris中,有兴趣的同学可以持续关注本系列教程。原创 2025-03-12 11:23:44 · 615 阅读 · 1 评论 -
一个开源、免费的基于流的数据集成工具——Flink CDC
Flink CDC 是一个基于流的数据集成工具,旨在为用户提供一套功能更加全面的编程接口(API)。该工具使得用户能够以 YAML 配置文件的形式,优雅地定义其 ETL(Extract, Transform, Load)流程,并协助用户自动化生成定制化的 Flink 算子并且提交 Flink 作业。原创 2025-03-12 11:18:08 · 461 阅读 · 0 评论 -
19.5stars!未来十年一定要学的免费、开源的OLAP数据库——DuckDB
早就想要写一写DuckDB了,如果非要给这个早加一个时间,我希望是五年前(那个时候DuckDB才刚刚起步)。最初接触DuckDB只是把它当成嵌入式数据库SQLite的替代品,并且自认为SQLite经过这么多年的打磨与验证,现在就是无可替代般的存在(无知是阻碍我们进步的最大敌人)。然而当我一步步开始深入了解DuckDB的时候,我几乎是笑着完成,它完全颠覆了我对一个小小的数据库的认知。一切都不晚,一切都刚刚好!原创 2025-03-08 10:58:38 · 755 阅读 · 0 评论 -
极致丝滑:五分钟玩转超人气OLAP数据库DuckDB
本文将为同学们介绍如何用数据库管理工具DBeaver玩转DuckDB。原创 2025-03-08 11:11:10 · 595 阅读 · 0 评论 -
极致丝滑:五分钟用DuckDB玩转超亿级CSV
相信很多同学都遇到过这样的场景,有一个上百万条数据的CSV文件,然后想做一些分析。这时我们有哪些选择呢?现在单机性能也都普遍很好了,所以对于百万级的数据量也是可行的。但是如果是千万级或者上亿级,恐怕就心有余而力不足了。这也确实是目前大多数人的选择,性能还可以忍受,但是需要会Python,最好还会Jupyter就更好了。把CSV文件的数据导入到数据库中使用,这样也是一个选择。但是数据量达到千万级就是在挑战数据库的性能了。那么有没有一种足够足够简单并且没有性能瓶颈的方式可以来做数据分析呢?原创 2025-03-08 11:14:51 · 647 阅读 · 0 评论 -
极致丝滑:用DuckDB玩转超百亿级数据(作者都要魔怔了,不建议亲自测试)
前面有说过,DuckDB的创建者一开始就放弃了分布式,然后就有同学提出质疑,DuckDB会有性能瓶颈。我只想说,目前DuckDB可以说是单机场景下大数据量分析的最佳选择。本文,我将为同学们演示DuckDB在百亿级数据量下的性能表现,我感觉我已经彻底魔怔了,百亿级数据量意味着什么?原创 2025-03-09 09:40:22 · 1230 阅读 · 0 评论 -
极致丝滑:用DuckDB像数仓一样玩转数据分析
在实际工作中,经常会是这样的情况,我们有些数据在CSV文件里面,有一些数据可能有以Parquet格式保存,还有数据是在Mysql数据库里面。当我们想要结合起来做分析的时候就会很麻烦。通常的做法会是搭建数仓,各类型数据都同步到数仓就可以统一使用了。这确实是很多企业的做法,但是对于个人分析或者数据量并没有那么多的情况下,我们该如何做分析呢?答案就是DuckDB。前面我们已经介绍了DuckDB对CSV和Parquet的使用,本文我讲为大家介绍如何用DuckDB直接连数据库。原创 2025-03-09 09:43:35 · 672 阅读 · 0 评论 -
以Doris为例:聊一聊明细模型、主键模型、聚合模型三种数据模型
本文主要介绍Doris的三个数据模型:明细模型 Duplicate、主键模型 Unique、聚合模型 Aggregate。根据业务场景选择合适的数据模型则至关重要,所以希望大家在学习Doris的时候可以多多理解,熟练掌握三种模型的应用场景。原创 2025-03-11 15:05:57 · 921 阅读 · 0 评论 -
抛弃Docker:十分钟完成单机部署大数据实时数仓数据库Doris
事情是这样的,当我写了一篇《五分钟部署Doris的极简部署流程》后,有很多同学向我反馈说Docker无法访问。怎么说呢,这是一个无法言说的事实(科学上网可以减少信息差)。但是对于同学们无限的求知欲,怎么可以让一个小小的Docker给难倒呢。本文将给大家介绍不依赖Docker,如何单机完成部署Doris。原创 2025-03-11 15:03:42 · 1131 阅读 · 0 评论 -
五分钟部署Doris的极简部署流程
无意间看到Doris的介绍,您是否会心血来潮想要体验一番呢。通常我会建议大家查看Doris的官方文档,文档中提供了多种全面且详细的部署方式,您可以选择自己容易上手的方式完成Doris的部署。但是根据我的亲身体验而言,对于刚接触Doris的同学来说,想要完成部署实属有些困难。但是对于更多的同学而言,只是想要快速体验一番,很可能还没有开始就被卡在了部署这一步。本文则为同学们讲解五分钟部署Doris的极简流程。原创 2025-03-11 15:02:03 · 485 阅读 · 0 评论 -
免费、开源:五分钟带你了解什么是Doris
Apache Doris 是一款基于 MPP 架构的高性能、实时的分析型数据库,以高效、简单、统一的特点被人们所熟知,仅需亚秒级响应时间即可返回海量数据下的查询结果,不仅可以支持高并发的点查询场景,也能支持高吞吐的复杂分析场景。换句话说,Doris是一款免费、开源、易用且查询速度非常快的数据库,完全可以满足大数据分析场景,这也是我为什么会推荐大家体验Doris。原创 2025-03-11 14:54:59 · 824 阅读 · 0 评论 -
一个神奇的开源大数据必备工具——实时数仓Apache Doris
Apache Doris 是一个基于 MPP 架构的高性能、实时的分析型数据库,以极速易用的特点被人们所熟知,仅需亚秒级响应时间即可返回海量数据下的查询结果,不仅可以支持高并发的点查询场景,也能支持高吞吐的复杂分析场景。当下,实时数仓的产品还有很多,比如阿里云的Hologress,如果没有开源要求则也是非常不错的选择。原创 2025-03-11 14:48:03 · 1170 阅读 · 0 评论 -
一个神奇的开源大数据必备工具——SeaTunnel:Kafka同步到Mysql
kafka消息同步到mysql,batch和steaming模式的基本写法是一致的,特殊差异请参考文档。原创 2025-03-10 11:31:35 · 350 阅读 · 0 评论 -
一个神奇的开源大数据必备工具——SeaTunnel:认识Config
在SeaTunnel,Config文件非常重要,用户可以最大化地定制他们的数据同步方案。所以,接下来,我们将介绍如何配置Config文件。Config文件最重要的格式是hocon,更多介绍可以参考。同时,SeaTunnel还支持json格式,但是config文件命名需要以.json结尾。原创 2025-03-10 11:29:33 · 378 阅读 · 0 评论