行业大数据应用-复习

第一章:大数据概述

1.行业大数据主要研究内容:

        一个目标:以有效的信息技术手段和计算方法,获取、处理和分析各种应用行业的大数据,发现和提取高附加值的应用和服务。

        三个方面:概念,方法,应用。

2.数据:是所有能输入到计算机并被计算机程序处理的符号的总称。

3.数据的分类:结构化,半结构化,非结构化,(“准”结构化)。

4.数字孪生:充分利用物理模型和基于运行历史的大数据,在虚拟空间中完成映射,从而反映相对应的实体装备的全生命周期过程。

5.大数据:规模庞大,结构复杂,难以通过现有商业工具和技术在可容忍的时间内获取,管理和处理的数据集。

6.大数据4V特征:

  • Volume(规模大):数据的采集,计算,存储量都非常庞大。
  • Velocity(变化快):数据增长速度快,处理速度也快,获取数据的速度也要快。
  • Variety(种类杂):种类和来源多样化。
  • Value(价值密度低):我们需要对一系列价值密度低的数据进行分析处理,才能获得大量信息所蕴含的部分有价值的信息。

7.数据处理的一般过程:

  • 数据获取——数据获取后,需要对数据进行变换,清洗等预处理,输出满足数据应用要求的数据。
  • 数据管理——对数据进行分类,编码,存储,索引和查询。
  • 数据分析——描述性分析,诊断性分析,预测性分析和规范性分析。
  • 数据可视化与交互分析——帮助业务人员而非数据处理专家更好的理解数据分析的结果。

第二章:数据获取与治理

1.大数据的来源:

  • 对现实世界的测量——通过感知设备获得数据。
  • 人类的记录——由人录入计算机形成数据。
  • 计算机生成的数据——计算机通过现实世界模拟等程序生成数据。

2.数据质量的评估标准:

  • 完整性——数据信息是否存在缺失的情况。数据完整性是数据质量最为基础的一项评估标准。
  • 一致性——数据是否遵循了统一的规范,数据之间的逻辑关系是否正确和完整。
  • 准确性——数据中记录的信息和数据是否准确,数据记录的信息是否存在异常或错误。
  • 及时性——数据从产生到可以查看的时间间隔,也叫数据的延时时长,是数据世界与客观世界的同步程度。数据的及时性主要跟数据的同步和处理过程的效率有关。

3.数据变换

4.分箱练习:800 1000 1200 1500 1500 1800 2000 2300 2500 2800 3000 3500 4000 4500 4800 5000

等深分箱法 箱子深度为4 箱子1:800 1000 1200 1500
箱子2:1500 1800 2000 2300
箱子3:2500 2800 3000 3500
箱子4:4000 4500 4800 5000
等宽分箱法
  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值