商务智能与数据挖掘 - 认识数据

最新推荐文章于 2022-02-22 08:58:15 发布

想想虔诚怎么做

最新推荐文章于 2022-02-22 08:58:15 发布

阅读量1.7k

点赞数

分类专栏：商务智能与数据挖掘文章标签：商务智能数据挖掘数据属性数据统计描述数据可视化

本文链接：https://blog.csdn.net/qq_41409438/article/details/101481200

版权

3 篇文章 2 订阅

订阅专栏

数据对象和属性类型

众数（mode）是另一个衡量中心性的测量。众数是一系列数据中出现频率高的值。
众数可以是定性的也可以是定量的属性。有可能好几个不同的值都出现大量的频率，导致众数不止一个众数有1个、2个、3个的分别称为unimodal（单峰值）, bimodal（二峰值）, trimodal（三峰值）
一个极端的例子，如果每个数据值都仅出现一次，则没有众

中列数(midrange)是数据集中大值和小值的平均值。可以用来评估数值型数据的中心性趋势。 举例：假设我们有salary的如下值（以千美元为单位），按递增次序显示：30,31,47,50,52,52,56,60,63,70,70,110 求其中中列数 中列数是：30+110/2=70

方差和标准差是测量数据分散度的

假设数据按照属性X升序排列。我们可以挑选特定的数据点把数据分割成大小相等的连续数据集
分位数是数据分布上有一定间隔的数据点，将数据分成基本相等大小的连续数据集。
– 2‐分位点把数据划分为高低两半。即中位数。
– 4‐分位点（quartile）是把数据分布分成4个等量大小的3 个数据点，每一个部分表示数据分布的1/4. 它们被称为四分位数。
–100‐分位数（percentile，百分位数）将数据集分成100 个大小相等的连续集合。
给定第k个q‐分位点x, 至多k/q的数据值小于x，至多q‐k/q 的数据值大于x。k是大于0小于q的整数。共有q‐1个q分位点。
分位数反应了分布的中心，散布以及形状。
第1个四分位数，表示为Q1, 是第25个百分位点。它把数据值低的25%切断。第3个四分位数，表示为Q3，是第 75个百分位数。它切断了数据值低的75%。
Q1和Q3的距离，简单反应了数据中心的一半数据的范围。这个距离被称为四分位数极差(IQR)。被定义为：
IQR = Q₃ - Q₁

单个的数值分散性测量在描述偏斜分布时不够有效。在对称的分布中，中值把数据分成大小相等的2部分。但对偏斜的数据来说并非如此
五数概括（Five‐number summary）由中值，Q1，Q3，小值和大值组成，按次序表示为：Minimum, Q1, Median, Q3, Maximum.

在这里插入图片描述

相异性矩阵，存放n个对象两两之间的邻近度，d(i,j) 越接近值越趋近于0，越不同值越大
在这里插入图片描述
那么我们也可以由相异性度量推出相似性。例如，对于标称属性来说。

在这里插入图片描述

关注