大数据
文章平均质量分 88
高 亮
目前执职于360数科,大数据领域拥有8年的从业经验。欢迎关注我的微信公众号“大数据工坊”获取更多专业资讯和交流机会。专注于大数据平台、分布式计算性能、数据存储以及新技术的研究与应用。
展开
-
大数据平台中的Spark-Hive数据导入幂等性保障方案
大数据平台-spark数据接入到hive保证数据幂等性方案原创 2022-03-04 22:59:37 · 1670 阅读 · 1 评论 -
AI入门指南(一):什么是人工智能、机器学习、神经网络、深度学习?
在《AI入门指南:什么是人工智能、机器学习、神经网络和深度学习?》这篇文章中,详细介绍了人工智能的基础概念和其发展历程。文章深入浅出地解释了人工智能(AI)和机器学习(ML)之间的区别,并探讨了神经网络与深度学习的基本原理及其应用场景。通过简单易懂的示例,读者可以清晰地了解这些技术是如何相互关联的,以及它们在现实世界中的实际应用,帮助读者快速入门并掌握AI的核心知识。原创 2024-08-02 10:24:39 · 1747 阅读 · 0 评论 -
调度系统揭秘(上):调度系统设计思想
调度系统揭秘(上):调度系统设计思想原创 2024-06-13 13:57:53 · 1020 阅读 · 0 评论 -
SDK定制化开发实践:SDK改造中的关键问题及解决方案
在我们之前的文章[产品SDK化转型:标准化与机构个性化定制解决方案](https://blog.csdn.net/qq_35128600/article/details/137101481)中,我们探讨了一种基于SDK的灵活架构设计,旨在协调产品迭代与定制化功能之间的矛盾,并且具备良好的可维护性和可扩展性。然而,在实际开发中,我们面临一个亟待解决的关键问题:即在机构定制化过程中,必须涉及对SDK内部进行改造的情况。举例来说,假设SDK中提供了用户密码加密的 `/user/encryption` 接口,默原创 2024-05-21 14:50:36 · 1283 阅读 · 0 评论 -
产品SDK化转型:标准化与机构个性化定制解决方案
在互联网行业中,企业通常可分为两大类别:2C和2B。对于2B企业而言,它们的产品往往以产品的形式提供给各个合作机构。以金融领域为例,一家2B金融公司通常将产品销售给各个银行和证券公司,这是2B领域常见的做法。然而,在与众多合作机构合作时,常常需要进行产品迭代和定制化功能的开发。这些定制化功能涉及到前端页面和后端接口,有些功能甚至不适合合并到主线产品中,而只能作为合作机构的特殊功能。随着合作机构的增加,一个产品可能需要兼容数十家银行,这使得面对众多定制化需求以及需求可能需要合并至产品的情况变得复杂。原创 2024-03-28 10:08:10 · 1152 阅读 · 0 评论 -
Java SPI解读:揭秘服务提供接口的设计与应用
在 Java 编程中,SPI(Service Provider Interface)是实现**可插拔式**应用的一种机制。它就像是应用程序的魔法盒,让你可以随时添加新的功能实现,而不需搞得一团糟。通过SPI,我们可以在运行时**动态加载**具体的服务实现,这意味着你的应用程序可以像变戏法一样,轻松地变身成不同的形态。原创 2024-03-28 09:54:17 · 1537 阅读 · 0 评论 -
Flink实时数仓同步:拉链表实战详解
Flink实时数仓同步:拉链表实战详解原创 2024-01-19 14:17:26 · 1629 阅读 · 4 评论 -
数仓日常维护:剖析每日增量同步的内部机制
数仓日常维护:剖析每日增量同步的内部机制原创 2024-01-19 14:16:10 · 1202 阅读 · 4 评论 -
企业级依赖管理: 深入解读 Maven BOM
企业级依赖管理: 深入解读 Maven BOM原创 2023-12-28 16:55:38 · 1136 阅读 · 0 评论 -
Python虚拟环境指南:告别依赖地狱
Python虚拟环境指南:告别依赖地狱原创 2023-12-15 18:19:51 · 1301 阅读 · 0 评论 -
并发编程三要素:可见性、原子性、有序性
一文讲透并发编程三要素:可见性、原子性、有序性原创 2023-04-18 17:52:06 · 3432 阅读 · 2 评论 -
分享一个自己研发的项目-pillar[分布式主从任务分配通用框架]
分布式主从任务分配通用框架原创 2022-04-15 11:54:58 · 749 阅读 · 0 评论 -
浅谈我们为什么需要zookeeper?
大家都知道zookeeper是作为一个分布式协调工具,在很多大数据组件中都有出现那么zookeeper是如何成为协调工具呢?首先Zookeeper有自己的文件系统 ,而这个文件系统可以监控目录的变化,这也就是协调工具的核心!例如hadoop 2.0版本新增的HA功能,实现了namenode的主备切换就是由zookeeper搞定的,如下图:ZKFC服务中有一个zkClient客户端向zk...原创 2020-03-11 21:48:00 · 2845 阅读 · 0 评论 -
全面剖析Flink CheckPoint机制与Exactly Once和At Least Once语义
看完本文,你能 get 到以下知识:介绍 CheckPoint 如何保障 Flink 任务的高可用CheckPoint 中的状态简介如何实现全域一致的分布式快照?什么是 barrier?什么是 barrier 对齐?证明了:为什么 barrier 对齐就是 Exactly Once,为什么 barrier 不对齐就是 At Least Once。Flink 简介有状态函数和运算符...原创 2020-03-10 18:43:02 · 4530 阅读 · 4 评论 -
服务器重启后 Spark Streaming 任务启动失败的原因及排查过程记录
因特殊原因公司服务器从晚上6点开始CPU资源使用率飙升至100%然后运维重启服务器,重新构建此服务器上所有作业然而第二天早上查看日志发现,有一个job作业启动失败,经过一系列排查最终解决,特此记录一下此作业是sparkStreaming 读取kafka topic并存储至hbase ,offset保存在zookeeper;此问题并非是常见的offset过期或offset不一致问题; 请往...原创 2020-02-25 15:48:58 · 8737 阅读 · 6 评论 -
HBase 热点问题:通俗易懂的 RowKey 设计与 Region 分区解决方案
在 HBase 中,默认情况下,表创建时只有一个 Region。热点问题发生在大量请求集中访问同一个 Region 时。HBase 发现一个 Region 的数据量超过阈值(默认 10GB)后,会自动将这个 Region 划分为两个新的 Region。但在 Region 分裂过程中,访问该表的数据会被阻塞,直到分裂完成。为了避免热点问题,我们可以在创建表时进行预分区。这样,我们就能创建出 10 个 Region。你可以通过 HBase UI 查看 Region 的状态,端口号为16010。原创 2020-02-21 14:51:38 · 4703 阅读 · 0 评论 -
Windows环境下的Flink Stream配置指南
对于开发人员来说,能够在 Windows 环境中进行调试和测试,然后将调试好的程序部署到集群中运行,是非常理想的开发流程。下面,我们将通过一个简单的 Socket 程序,演示如何在本地监控端口并实时提取数据。在进行 Socket 流处理之前,我们需要配置 Windows 的 nc 端口。至此,在 Windows 中配置 Flink Stream 流处理的过程已经完成。:运行程序后,CMD 端口中输入的数据将通过 Flink 实时处理并显示结果。:在 CMD 环境中进入到解压后的目录。原创 2018-11-26 11:48:33 · 356 阅读 · 0 评论 -
Spark集群搭建指南
验证集群是否正常运行,可以在master和slave节点上查看相应的进程。为存放Spark的软件环境(如JDK、Scala、Spark),我们需要创建一个。在本指南中,我们将逐步创建一个Spark用户组和用户,并为其配置所需的环境。完成上述配置后,Spark集群已经搭建完成。命令进入Spark Shell环境进行验证。用户组下创建一个用户ID为2000的。文件中添加必要的环境变量配置。如果遇到权限问题,可以先修改。原创 2018-12-01 14:44:06 · 6522 阅读 · 1 评论 -
SparkUI使用心得
是一个非常实用的工具,它可以直观地展示集群中的各个 worker 节点的状态。通过 SparkUI,你不仅可以看到每个 worker 节点的 CPU 核数和内存使用情况,还可以跟踪各个作业在集群中运行的详细信息,包括哪些 executor 在运行、作业在哪些节点执行,以及作业的本地性级别等。点击某个 worker 节点后,你将看到该节点的资源使用情况和正在运行的任务。通过点击描述,你可以进一步挖掘每个作业的执行过程,了解作业在集群中的分布情况。如果你想深入了解每个作业的执行细节,可以点击对应作业的描述。原创 2019-04-24 17:37:37 · 1250 阅读 · 0 评论 -
解决Hive安装错误:无法实例化SessionHiveMetaStore的RuntimeException问题
解决Hive安装错误:无法实例化SessionHiveMetaStore的RuntimeException问题原创 2019-04-25 12:47:47 · 3688 阅读 · 1 评论