- 博客(55)
- 收藏
- 关注
原创 eBay 基于 Celeborn RESTful API 进行自动化工具集成实践
作者:王斐,ebay Hadoop 团队软件工程师,Apache Kyuubi PMC member,Apache Celeborn Committer。简介:Apache Celeborn 是一个统一的大数据中间服务,致力于提高不同MapReduce引擎的效率和弹性。为了Spark on Kubernetes的弹性以及解决External Shuffle Service的灵活性和稳定性不足,eBay引入 Celeborn 作为Remote Shuffle Service。本文介绍了eBay基于最新 RES
2024-11-29 22:47:40
940
原创 Apache Doris 现行版本 Docker-Compose 运行教程
随着 Apache Doris 项目的火热,很多想尝鲜或者试用的小伙伴都希望通过 Docker 来快速拉起一个功能测试或者开发的集群,但由于一些变更原因,Doris On Docker 这一块的内容还未来得及调整完,所以为了让更多的小伙伴不卡在快速使用的路上,特此出一版教程给大家快速拉起试用。
2024-11-28 23:49:10
1011
原创 从零开始了解推荐系统全貌
如果说互联网的目标就是连接一切,那么推荐系统的作用就是建立更加有效率的连接,推荐系统可以更有效率的连接用户与内容和服务,节约了大量的时间和成本。如果把推荐系统简单拆开来看,推荐系统主要是由数据、算法、架构三个方面组成。
2024-11-28 23:46:38
950
原创 Apache Doris 现行版本 Docker-Compose 运行教程
随着 Apache Doris 项目的火热,很多想尝鲜或者试用的小伙伴都希望通过 Docker 来快速拉起一个功能测试或者开发的集群,但由于一些变更原因,Doris On Docker 这一块的内容还未来得及调整完,所以为了让更多的小伙伴不卡在快速使用的路上,特此出一版教程给大家快速拉起试用。启动脚本中,强制校验了为三处环境变量值,若不满足则无法正常启动进程,这三处环境变量值的。校验的情况,会在后续版本中尽快优化掉,带来的不便敬请谅解~脚本,或通过临时启动一个 be 的容器,将容器内在。
2024-11-28 23:43:14
1656
1
原创 shell 文件打开情况工具 lsof
lsof(list open files)是一个列出当前系统打开文件的工具。在linux环境下,任何事物都以文件的形式存在,通过文件不仅仅可以访问常规数据,还可以访问网络连接和硬件。
2024-09-10 22:07:37
317
原创 记一次Hiveserver2连接异常的解决-腾讯云-emr
离线任务跑的好好的,忽然有一天失败了,查看海豚上的任务执行日志发现是hiveserver2连接超时了。
2024-09-10 22:03:28
844
原创 服务器安装pytorch-阿里云-centos7
pytorch作为目前最主流的开源机器学习库之一,凭借庞大的社区支持和易于开发的特性,收获了一大波开发者与项目分支。像我们熟知的“GLM”,“YOLO”,"GPT-Sovits",“Stable Diffusion”......这些开源项目中都有pytorch的身影。不管是现在的大语言模型或者是一些专用模型都已经离不开pytorch。所以,我们现在就来学习如何安装这个强大的机器学习库吧!
2024-09-05 19:39:19
754
原创 Linux远程管理工具推荐
前两天xshell不让用了,刚好一台新电脑要装一个远程连接工具,准备试试其他。网上找了一些资料整理如下。欢迎各位看官评论区说出你在使用的工具,期待你的使用经验分享(有偿投稿到本专栏)。如对本文有所补充可以申请编辑权限。
2024-09-05 19:28:42
1492
原创 Dolphinscheduler 3.2.0版本参数传递并使用switch任务进行判断
Dolphinscheduler 3.2.0版本参数传递并使用switch任务进行判断
2024-08-31 21:09:06
990
原创 采集工具选型调研
大家一起来探讨SeaTunnel方案,简化当前Dinky与chunjun的双轨模式(Dinky仅用于实时同步,chunjun负责离线处理)。提议小组一起共议,并由大数据组构建demo验证其能否融合流批处理于Zeus平台,实现统一开发与运维,降低跨平台障碍与学习成本。技术应聚焦高效而非堆砌,共同努力推动架构优化。
2024-08-30 15:11:05
1789
原创 一文彻底搞懂ZooKeeper选举机制
ZooKeeper 是一个高性能分布式的开源协调服务,用于构建分布式应用程序和服务。 一个 ZooKeeper 集群通常由多个 ZooKeeper 服务器组成,这些服务器分布在不同的物理节点上。在集群中,每个服务器都知道其他服务器的存在,并且彼此协调工作以提供一致性和可用性。
2024-08-28 17:00:15
1373
1
原创 Dinky教程- 数据源那些你不知道的功能
在我们日常使用Dinky过程中,数据源是必不可少的,它可以帮我们快速创建Flink sql,查询数据,检查元数据等功能,但是对于连接模板与连接配置以及其他功能你都了解吗?下面我来讲一下DInky 数据源的玩法全流程,希望对你开发有帮助。
2024-08-28 11:22:11
1394
原创 Bigtop 从0开始(下)
BigTop的应用场景:1. BigTop通过提供预配置的Docker镜像,极大简化了在不同操作系统上编译大数据组件的rpm或deb包的过程,使之变得快捷且高效。2. BigTop集成了编译过程中所需的复杂依赖关系,有效解决了常见的编译错误,并且通过代码中的补丁确保了流畅的编译体验。这意味着,用户不再需要为官方包无法编译或搭建复杂的编译环境而感到困扰。3. BigTop还提供了对Apache Ambari的支持,使用户能够轻松打包与Ambari兼容、满足安装要求的大数据软件包。
2024-08-22 19:16:17
843
原创 Bigtop 从0开始(上)
1. BigTop通过提供预配置的Docker镜像,极大简化了在不同操作系统上编译大数据组件的rpm或deb包的过程,使之变得快捷且高效。2. BigTop集成了编译过程中所需的复杂依赖关系,有效解决了常见的编译错误,并且通过代码中的补丁确保了流畅的编译体验。这意味着,用户不再需要为官方包无法编译或搭建复杂的编译环境而感到困扰。3. BigTop还提供了对Apache Ambari的支持,使用户能够轻松打包与Ambari兼容、满足安装要求的大数据软件包。
2024-08-22 18:59:15
559
原创 DevOps入门(下)
DevOps 希望做到的是软件产品交付过程中 IT 工具链的打通,使得各个团队减少时间损 耗,更加高效地协同工作。专家们总结出了下面这个 DevOps 能力图,良好的闭环可以大大 增加整体的产出。
2024-08-21 14:26:30
628
原创 DevOps入门(上)
DevOps: Development 和 Operations 的组合DevOps 看作开发(软件工程)、技术运营和质量保障(QA)三者的交集。突出重视软件开发人员和运维人员的沟通合作,通过自动化流程来使得软件构建、测试、 发布更加快捷、频繁和可靠。
2024-08-21 14:17:41
554
原创 CentOS上安装和配置Docker与Docker Compose的详细指南
大家好,我是小阳,在这篇文章中,我将带大家一步步完成在CentOS系统上安装和配置Docker与Docker Compose的过程。通过这篇详细的指南,你将能够轻松配置Docker环境,并在日常开发和部署中享受其带来的便利。
2024-08-20 10:44:18
933
原创 Dinky教程--Flink CDC pipline整库同步Doris
Dinky 是一个基于 Apache Flink 的实时计算平台,它提供了一站式的 Flink 任务开发、运维、监控等功能。本教程一步一步的教你如何使用dinky运行CDC pipline任务实现整库同步Doris并自动建表功能。Starrocks同理
2024-08-19 11:04:39
2074
原创 Dinky手把手教程 - 集成K8s,提交Flink On K8s Application任务
Dinky 是一个基于 Apache Flink 的实时计算平台,它提供了一站式的 Flink 任务开发、运维、监控等功能。Kubernetes 是一个强大的容器编排平台,能够自动化应用的部署、扩展和管理。将 Flink 与 Kubernetes 集成,可以充分利用 Kubernetes 的优势,实现 Flink 任务的弹性伸缩、自动化部署和高可用性。
2024-08-19 10:41:52
1354
原创 Dinky手把手教程 - 连接Flink Sql Cli控制台
Dinky 是一个开箱即用的一站式实时计算平台,以 Apache Flink 为基础,连接 OLAP 和数据湖等众多框架,致力于流批一体和湖仓一体的建设与实践。flink sql cli是flink 提供的一个sql执行工具,可以方便的进行sql预览,执行等操作
2024-08-16 11:39:45
1559
原创 Docker基础命令-网络(network)管理(Docker网络类型、创建与管理自定义网络、DNS与服务发现、网络隔离与安全、网络桥接与路由、高级网络特性)
Docker网络管理涉及从基础配置到高级策略的广泛内容,是构建稳定、可扩展的Docker化应用架构的关键。通过深入理解网络类型、配置自定义网络、优化DNS与服务发现机制、强化网络安全措施,掌握这些技巧,无论是单机环境还是分布式集群,都能确保容器间通信的顺畅与隔离,满足不同应用场景的需求。
2024-08-15 11:34:48
1420
原创 Dinky手把手教程-Docker快速部署
本教程使用三种不同的方式通过 Docker 完成 Dinky 的部署,如果你想要快速体验,推荐使用 standalone-server 镜像, 如果你想要体验比较完整的服务,推荐使用 docker-compose 启动服务。如果你已经有自己的数据库服务 你想要沿用这些基础服务,你可以参考沿用已有的 Mysql 、 Hadoop 和 Flink 服务完成部署。
2024-08-15 11:14:45
953
原创 Seatunnel-Web环境搭建
SeaTunnel Web是一个Web项目,提供对作业、调度、运行和监控功能的可视化管理。它基于 SeaTunnel 连接器 API 和 SeaTunnel Zeta 引擎开发。它是一个可以独立部署的 Web 项目。它也是SeaTunnel的一个子项目。欲了解更多信息,请参阅SeaTunnel Web。
2024-08-13 10:52:51
1199
原创 Doris 夺命 30 连问!(下)
30 问最后一篇了,希望这 30 问能解答大家在使用 Apache Doris 或者选择 Apache Doris 的时候产生的各种疑虑。
2024-08-13 10:16:47
1459
原创 Doris 夺命 30 连问!(中)
这是继上次的 30 问上篇的中篇,也是 10 个问题,有些还是比较难回答的,欢迎大家在评论区或者私聊我来进行 battle~
2024-08-12 10:56:42
911
原创 Doris 夺命 30 连问!(上)
在前段时间和 Apache Doris 一个数据体量比较大的测试用户沟通过程中,对方的多达十几人的大数据架构师团队就关于 Apache Doris 的各种特性和自身业务场景提出了众多问题,个人感觉非常有探讨的价值,一起来看看,如果有异议或者意见,可以评论留言,也可以私聊~
2024-08-09 15:46:16
1265
原创 全面介绍 Apache Doris 数据灾备恢复机制及使用示例
Apache Doris 作为一款 OLAP 实时数据仓库,在越来越多的中大型企业中逐步占据着主数仓这样的重要位置,主数仓不同于 OLAP 查询引擎的场景定位,对于数据的灾备恢复机制有比较高的要求,本篇就让我们全面的介绍和示范如何利用这些特性能力构建集群数据的灾备恢复机制。
2024-08-09 12:59:29
1933
原创 网页版IntelliJ IDEA部署
今天要为大家带来一个黑科技——如何在云端部署和使用WEB版的IntelliJ IDEA,让你在任何地方都可以随心所欲地进行Java开发。这个方法特别适合那些用着老旧Windows电脑,部署项目时举步维艰的开发者们。
2024-08-08 10:23:47
3018
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅