大数据平台选型及相关技术应用 11 个难点解读

本文聚焦大数据平台选型及其技术应用的11大难点,涉及从传统数仓转型、数据一致性、硬件需求、用户画像构建到实时推荐等多个话题。专家陈星星解答了关于大数据平台的实时计算、数据治理、性能保障等问题,强调了数据预处理的重要性,并提供了学习和实践资源。
摘要由CSDN通过智能技术生成

大数据时代已经到来,社区最近组织了“大数据时代企业的精准化和个性化管理及服务实践线上交流探讨”,并邀请专家陈星星撰写了《大数据时代背景教育企业的精准化和个性化管理及服务实践》(点击标题可阅读),为广大会员提供大数据应用相关实践借鉴,以下由陈星星将活动中提出的难点问题及解答进行总结,供更多读者参考。

很多初学者,对大数据的概念都是模糊不清的,大数据是什么,能做什么,学的时候,该按照什么线路去学习,学完往哪方面发展,想深入了解,想学习的同学欢迎加入大数据学习qq群:957205962,有大量干货(零基础以及进阶的经典实战)分享给大家,并且有清华大学毕业的资深大数据讲师给大家免费授课,给大家分享目前国内最完整的大数据高端实战实用学习流程体系

Q1、传统数仓转向大数据平台的必要性?

如题,或者什么场景的的传统数仓适合转向大数据平台。转向大数据平台后都解决了什么样的问题,暴露出什么样的问题?

A:

■ rein07 某证券 系统架构师:

大数据平台采用分布式架构,用于解决海量数据的存储和分析问题,传统数仓无法解决上百TB及PB级的分析问题。大数据平台由于架构新,使用模式也不尽相同,有的使用SQL,有的使用spark编程,有的使用mapreduce编程,所以存在一定的学习成本;大数据平台还在逐步完善中,尤其是用户管理、安全、元数据管理等方面还存在一定问题,使用时需要注意。

 

Q2、大数据底层保持数据强一致性是如何实现的?

A:

■ 陈星星 科技公司 技术经理:

大数据底层的数据强一致性是通过HDFS的分布式架构中的冗余副本策略和心跳检测机制实现的。

1、冗余副本策略:HDFS处理节点失效的一个方法就是数据冗余,即对数据做多个备份,在HDFS中可以通过配置文件设置备份的数量,默认是3副本,只有数据在3个副本上均完成写成功,才返回。

2、心跳机制:检测节点失效使用“心跳机制”。每个 Datanode 节点周期性地向 Namenode 发送心跳信号。 Namenode 通过心跳信号的缺失来检测这一情况,并将这些近期不再发送心跳信号 Datanode 标记为宕机,不会再将新的 IO 请求发给它们。

N: 3 (数据备份的数目)

W: 1 (数据写入几个节点返回成功),默认是1

R: 1 (读取数据的时候需要读取的节点数)

W + R < N

  • 2
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值