数据结构整理

本文详细介绍了表结构数据的特性,包括数据库中的表、字段、主键和维度等概念,以及数据获取、处理和分析的方法。提到了Excel、SQL等工具在数据处理中的作用,还讨论了数据透视表、ETL流程和E-R图在数据建模中的应用。此外,数据的缺失值处理和汇总规则也被提及,强调了它们在数据分析中的重要性。
摘要由CSDN通过智能技术生成

1.表结构数据

 指数据库结构的数据,以字段为基本的存储单位和计算单位。(关系型数据库都是以表结构进行存储,是数据分析工具中最基本的存储结构)。
 以整列数据为基本计算单位。
 无法对某一特定值进行操作。
 无法在行上进行操作。
表中“行”称为记录,“列”称为字段
 数据库中,字段的集合为表,表的集合为数据库。

2.表结构特征

 一个字段只能有一种数据类型。
 用字段名定位字段。
 表中所有字段总行数一致,在记录中可以没有值。
 表明定义表。

3.表结构数据工具

 几乎所有数据分析工具都支持表数据结构:
Excel,SAS,SPSS,R,TableauSoftware,MATLAB,Numbers

4.表格结构数据获取方法

 1)数据库系统:使用Navicat等工具,获取其DDL语句。脚本循环。使用Navicat,传输表。
 2)可以引用其他工作表和工作薄中的单元格值进行计算。
 3)电子表格支持的数据文件:txt,csv,xlsx
 4)前端操作平台:CRM,ERP.

5.单元格区域

 指的是单个的单元格,或是由多个单元格组成的区域,或者是整行,整列。

6.对象间的父子级关系

 一个父级对象下可以包含多个不同的子级对象,但一个子级对象只能属于某一特定的父级对象。(即一对多和多对一的关系)。
 跨表筛选应满足维度与公共字段是父子级关系才能保证按照维度下汇总计算的度量方式进行。

7.表格数据引用方法

表格数据获取数据的方式为:引用
 方法有:
 引用相同(不同)工作表单元格值:A1(sheet! A1)
 引用同一(不同)工作表内单元格区域:A1:C4(sheet! A1:C4)
 引用多行:1:5
 引用多列:A:D

8表格结构数据的查询方法

 vlookup()函数

9.表格结构数据常用函数

1)数学函数

函数含义
int返回整性
mod返回余数
round返回四舍五入数值
abs返回绝对值
sqrt返回平方根
rand返回随机数
randbetween返回指定数之间的随机数

2)文本函数

函数含义
len返回长度
text返回为text格式
replace返回替换之后结果
subtitle返回切剪之后结果

3)逻辑函数

函数含义
if如果
and
or或者

4)其他聚合函数,日期函数,查找函数等在数据库常用函数中已体现。

10.表结构数据特征

 1)主键:用来识别定位表中的不同行。一般一个表中有一个主键。每一行记录中没有空值与重复值。主键是表的记录单位。
 主键的业务意义:表的业务记录单位。
 2)维度:一般为离散型变量,有序型或名义型变量,又叫分组依据,分为汇总维度以及筛选维度。
  度量:唯度汇总的对象,绝大多数情况下使用连续型变量。
  多表出度量作为主表,一表出维度作为附表。
  维度筛选度量,度量被维度筛选。

在这里插入图片描述
 3)缺失值
 空值即为空白值,由NULL表示,可以对其进行删除和替换操作。不一定影响计算结果和计算精度。
 4)汇总规则
 是连接维度与度量的桥梁。
 度量值:和(sum),求平均(average),最大值(max),最小值(min)
 计数(count)数行数
 YTD,QTD,MTD为重要时间维度下汇总计算指标。
 将表结构数据进行字段整体的汇总计算可以求得指标结果。
 指标需要与维度结合才能统计出结果。
 5)数据透视表
  维度,度量,汇总计算规则。
 6)表结构数据与表格结构数据差异
在这里插入图片描述
 7)表结构数据连接逻辑
 横向合并:通过公共字段匹配。
 横向合并两个数据表时,对应关系决定合并结果的行数。
  左连接,右连接,内连接,外连接
 纵向合并:字段个数和类型相同,字段顺序相同。
 union:去重合并,全合并,空值NULL表示。
 8)对应关系
 一对一,一对多,多对一,多对多。
 9)关键字段
 关键字段中,有重复值的表为主表,无重复值的表为附表。

11.表结构数据获取渠道及方法

 数据库
 数据仓库(DW)
 可视化工具
 CSV,EXCEL,网页等
(应用ETL功能可以导入以上所有提及数据源中的数据到DW中做为表结构数据使用)

12.ETL

 ETL(Extract-Transform-Load)(萃取,转置,加载)。ETL在整个数据仓库项目中起着十分关键的作用,贯穿于项目始终,包括数据清洗,整合,转换,加载等各过程。通过ETL,可以基于源系统中的数据来生成数据仓库,搭建了OLTP(联机事务处理)系统与OLAP(联机分析处理)系统之间的桥梁,是数据从源系统流入数据仓库的通道。

13.E-R图

 E-R(Entity-Relationship-Diagram)实体-联系图。提供了表示实体类型、属性和联系的方法,用来描述现实世界的概念模型。

eg:在这里插入图片描述

  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
南邮811考试中的数据结构整理包括以下内容: 1. 二叉搜索树(Binary Search Tree):在南邮811考试中,二叉搜索树是一个常见的数据结构。它是一种有序的二叉树,其中每个节点的值都大于其左子树中的节点值,小于其右子树中的节点值。可以通过插入关键码的方式构造出一棵二叉搜索树。 2. 前序遍历(Preorder Traversal):前序遍历是一种遍历二叉树的方式,按照根节点-左子树-右子树的顺序进行遍历。在南邮811考试中,可以通过前序遍历二叉搜索树来获取插入关键码的顺序。 根据引用\[2\]和引用\[3\]的内容,为了使得树的深度最小,可以按照以下顺序插入关键码集合{14,32,47,6,9,12,78,63,29,81}:12 6 9 47 29 14 32 78 63 81。这样构造出的二叉搜索树的深度最小。 希望以上整理对你有帮助!如果还有其他问题,请随时提问。 #### 引用[.reference_title] - *1* [南邮计算机811数据结构经验贴](https://blog.csdn.net/Sao_E/article/details/131611902)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insertT0,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* *3* [数据结构第五章二叉树MOOC整理](https://blog.csdn.net/PGLWGES/article/details/124894815)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insertT0,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值