大数据技术
文章平均质量分 89
定期分享关于大数据技术的实践与应用
丁点大数据
10年以上大数据经验,目前专注于云原生大数据设计和开发方向,持续分享技术干货
展开
-
大数据做「AI大模型」数据清洗调优基础篇
其次,对于像HDFS这种分布式文件系统来说,为了控制数据同步的速率,可以通过DN的bandwith来控制台数据复制的带宽大小,如果服务本身的这种带宽限制比较小的话呢,也会影响数据同步的效率,所以一般而言,要根据整个集群的规模大小,所处的场景是单纯存储还是单纯计算还是存储和计算都有,如果是单存储场景的话,那么这个值就建议调大一些,可以放到Gb级别(注意:HDFS里面的带宽单位是大B,一个Byte等于8个bit,通常网卡传输是bit来传输的)当进行数据持续大量导入的时候,那么这里我们就要面临几个问题?原创 2024-03-28 21:22:00 · 1254 阅读 · 0 评论 -
HBase集群写入出现大量毛刺排查
组件服务调优是一项比较艰难的事情,需要很强的意志力才能去排查各项指标,各项参数去对比,希望通过此文能分享出问题排查的基本思路原创 2024-01-16 09:28:38 · 1000 阅读 · 1 评论 -
干货分享|使用Yarn标签机制实现任务资源隔离
在 Hadoop YARN 中,标签(Labels)机制是一种资源管理的特性,它允许你对节点和应用程序进行分类,可以有效地进行资源管理和调度。接下来,本文会分别从节点标签和应用标签两个方面来演示YARN标签01: 启用Yarn标签功能02: Yarn集群中添加标签执行完addToClusterNodeLabels命令之后,查看yarn界面多了两个标签,但是6个节点的资源还在default标签:03: Namenode节点关联标签在yarn-site.xml中配置对应NodeManager所属标签。原创 2024-01-15 21:55:20 · 724 阅读 · 0 评论 -
大数据离在线混部场景资源调度的演进与选型
我们发现Kubernetes 并不是一定就比Hadoop Yarn的调度能力要好,甚至在兼容性、数据本地存储、权限限制等方面也存在诸多不足,OK,回归到技术架构设计的根本问题就是:适合OR不适合?怎么来判断是否适合做云原生化建设?可以建议你从一下几个方面来综合考虑:集群规模是否足够大:集群规模足够大之后,从数据跨区域存储、集群容错性、计算作业跨区域调度、数据存储成本。原创 2024-01-15 20:54:03 · 910 阅读 · 0 评论 -
一文了解数据库vs数据仓库vs数据湖
在实际工作中,我们应该如何选择使用OLTP数据库还是OLAP数据仓库还是数据湖呢?有些同学会追求时髦前沿技术,不管业务需求是什么样的,直接就上数据湖架构,这样其实是一种不负责任的表现,单纯的以自己实践为主,业务需求为次的行为。这时候就需要架构师来评估具体业务的场景以及未来发展(2-3年)来看,最适合的架构模型是那种,而不是直接就上新技术,一般技术在2-3年会有一个迭代周期,你无法保证现在选择的技术栈未来看就是最优的。那么我建议从一下几个方面来进行选择原创 2024-01-14 22:33:30 · 1025 阅读 · 1 评论 -
Hive元数据迁移及升级方案
本文详细介绍了关于hive元数据迁移和升级的两种方案,Hive 是基于Hadoop之上的数仓,便于用户可以基于SQL(Hive QL)进行数据分析,原创 2023-11-08 22:17:42 · 691 阅读 · 0 评论