postgres两条结果集合并无法区分那个表的数据结果集_度量世间万物的尺子:统计数据及数据的分类...

本文介绍了统计学中的结构化数据,强调了数据分类的重要性,特别是字段类型(定类、定序、定距、定比数据)的区分。数据分类有助于选择合适的分析方法,避免因误用分析方法导致错误结论。同时,文章讨论了计量尺度的分类方法,包括定类、定序、定距和定比数据的特点,以及它们在统计分析中的应用。
摘要由CSDN通过智能技术生成

统计学的是收集和分析数据的实践活动。所以在讲统计学之前,我们要首先讲的是,统计数据的定义 以及 数据的分类方法。

## 统计学主要研究结构化数据

当咱们这个系列中,出现“数据”时,指的不是所有种类的数据。而是特指结构化数据(structured data)。

大部分电子表格软件的用户不会对此类数据感到陌生。比如,一个Excel的表格,一个Mysql数据库的表,都是结构化的数据集。

在结构化数据中,我们需要明确几个定义:

* 实体(entity):是指客观存在可以相互区别的事物。实体可以是具体的对象,如:一个男学生,一辆汽车等;也可以是抽象的事件,如:一次借书、一场球赛等。

* 属性(attribute):实体有很多特性,每一个特性称为属性。每个属性有一个值域,其类型可以是整数型、实数型、字符串型。如:学生(实体)有学号、姓名、年龄、性别等属性,相应值域为字符、字符串、整数和字符串型。

* 字段(field):标记实体属性的命名单位称为字段或数据项。它是可以命名的最小信息单位,所以又称为数据元素或初等项。一般来说字段的命名往往和属性相同,如:学生有学号、姓名、年龄、性别等字段。

* 记录(record):字段的有序集合称为记录。一般用一个记录描述一个实体,所以记录又可以定义为能完整地描述一个实体的字段集。如:一个学生记录,由有序的字段集(学号、姓名、年龄、性别等)组成。

举个例子,如果你有一个excel表。记录了学生的信息:

d3288881fb615e118150f85026c0884d.png

1. 这张表,我们叫做,学生信息表。它对应于学生这个实体类。

2. 表里有4个字段,分别记录了学生的姓名、班级、性别、年龄4个属性。

3. 表里面有三个学生的记录。每一条记录,都是一个学生实体。

在科学计算领域,我们往往是基于抽象去做计算。我们会设置不同的变量,来记录事务/现象的不同特征。例如:X1变量,代表姓名字段。

变量之所以叫变量,就是在于,其取值从一次观察采样、到下一次观察采样,结果可能会呈现差别或变化。变量的每一个具体取值,叫做“变量值”。

简单的说,多数情况下,你可能会看到不同的课本、文章,出现以下词汇,但基本意思是通的:

* 一个变量、一列、一个字段、实体的一个属性,很多情况里说的是同一个东西

* 一条记录、一行数据、一条样本,很多情况里说的是同一个东西

* excel的一个cell、一个异常记录值,很多情况里说的是同一个东西

## 是什么,为什么

弄明白了结构化数据,下一个更重要的问题是数据的分类。

在将“如何”数据分类之前,我们先搞明白两个问题:

**什么是数据分类**:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值