DAMA-CDGA 第14章 大数据和数据科学( 4分)

◼ 原则:组织应仔细管理与大数据源相关的元数据,以便对数据文件及其来源和价值进行准确的清单管理。P386
◼ 大数据:数据量大(Volume)、数据更新快(Velocity)、数据类型多样、可变(Variety)。数据黏度大(Viscosity)。数据波动性大(Volatility)。数据准确性低(Veracity)。P390
◼ 数据科学家:从数据中探究、研发预测模型、机器学习模型、规范性模型和分析方法并将研发结果 进行部署供相关方分析的人。P386
◼ 大多数据仓库都依赖于ETL,大数据解决方案,如数据湖,则依赖于ELT。P386
◼ 业务驱动:期望抓住从多种流程生成的数据集中发现的商机,是提升一个组织大数据和数据科学能力的最大业务驱动力。P387
◼ 数据科学依赖:
    1)丰富的数据源。
    2)信息组织和分析。
    3)信息交付。
    4)展示发现和数据洞察。P389
◼ 数据科学的过程阶段:
    1)定义大数据战略和业务需求。
    2)选择数据源。
    3)获得和接收数据源。
    4)制定数据假设和方法。
    5&#x

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值