第一章:大数据概述
1.行业大数据主要研究内容:
一个目标:以有效的信息技术手段和计算方法,获取、处理和分析各种应用行业的大数据,发现和提取高附加值的应用和服务。
三个方面:概念,方法,应用。
2.数据:是所有能输入到计算机并被计算机程序处理的符号的总称。
3.数据的分类:结构化,半结构化,非结构化,(“准”结构化)。
4.数字孪生:充分利用物理模型和基于运行历史的大数据,在虚拟空间中完成映射,从而反映相对应的实体装备的全生命周期过程。
5.大数据:规模庞大,结构复杂,难以通过现有商业工具和技术在可容忍的时间内获取,管理和处理的数据集。
6.大数据4V特征:
- Volume(规模大):数据的采集,计算,存储量都非常庞大。
- Velocity(变化快):数据增长速度快,处理速度也快,获取数据的速度也要快。
- Variety(种类杂):种类和来源多样化。
- Value(价值密度低):我们需要对一系列价值密度低的数据进行分析处理,才能获得大量信息所蕴含的部分有价值的信息。
7.数据处理的一般过程:
- 数据获取——数据获取后,需要对数据进行变换,清洗等预处理,输出满足数据应用要求的数据。
- 数据管理——对数据进行分类,编码,存储,索引和查询。
- 数据分析——描述性分析,诊断性分析,预测性分析和规范性分析。
- 数据可视化与交互分析——帮助业务人员而非数据处理专家更好的理解数据分析的结果。
第二章:数据获取与治理
1.大数据的来源:
- 对现实世界的测量——通过感知设备获得数据。
- 人类的记录——由人录入计算机形成数据。
- 计算机生成的数据——计算机通过现实世界模拟等程序生成数据。
2.数据质量的评估标准:
- 完整性——数据信息是否存在缺失的情况。数据完整性是数据质量最为基础的一项评估标准。
- 一致性——数据是否遵循了统一的规范,数据之间的逻辑关系是否正确和完整。
- 准确性——数据中记录的信息和数据是否准确,数据记录的信息是否存在异常或错误。
- 及时性——数据从产生到可以查看的时间间隔,也叫数据的延时时长,是数据世界与客观世界的同步程度。数据的及时性主要跟数据的同步和处理过程的效率有关。
3.数据变换
4.分箱练习:800 1000 1200 1500 1500 1800 2000 2300 2500 2800 3000 3500 4000 4500 4800 5000
等深分箱法 箱子深度为4 箱子1:800 1000 1200 1500 箱子2:1500 1800 2000 2300 箱子3:2500 2800 3000 3500 箱子4:4000 4500 4800 5000 等宽分箱法