数据挖掘概念与技术（原书第三版）范明孟小峰译-----第二章课后习题答案

最新推荐文章于 2024-05-17 16:04:53 发布

「已注销」

最新推荐文章于 2024-05-17 16:04:53 发布

阅读量3w

点赞数 27

文章标签：数据挖掘

本文链接：https://blog.csdn.net/u013272948/article/details/71440764

版权

第二章答案

第二章答案

该答案为重庆大学计算机学院Jack Channy所作，由于本人水平有限，难免有错误和不当之处，如有意见请评论或者发邮件至majiecqu@126.com。

2.1 再给三个用于数据散布特征的常用统计量（即未在本章讨论过的），并讨论如何在大型数据库中有效的计算它们。

异众比率(variation ratio)：用 $V_r$ 表示，其定义为： $V r = \sum f i - f m \sum f i = 1 - f m \sum f i$ $V_r = \frac{\sum{f_i} - f_m} {\sum{f_i}}=1-\frac{f_m}{\sum{f_i}}$ ，其中 $\sum{f_i}$ 表示变量值的总频数， $\sum{f_m}$ 表示众数组的频数。异众比率主要用于衡量众数对一组数据的代表程度。异众比越大，说明非众数组的频数占总频数的比重越大，众数的代表性就越差；异众比越小，说明非众数组的频数占总频数的比重越小，众数的代表性就越好。异众比率主要适合测度分类数据的离散程度，当然，对于顺序数据与数值数据也可以进行计算。
标准分数（standard score）:变量值与其平均数的差除以标准差后的值。设标准分数为 $z$ ，则有 $z = x i - x ¯ s$ $z=\frac{x_i - \bar{x}}{s}$ 标准分数给出了一组数据中各数值的相对位置。实际上， $z$ 分数只是将原始数据进行了线性变换，它并没有改变一个数据在该组数据中的位置，也没有改变该组数据的分布形状。
相对离散程度：离散系数（coefficient of variation）：一组数据的标准差与其相应的平均数之比称为离散系数，也称变异系数。为了消除变量值水平高低（即两个相同类型的属性其值的分布差别特别大，比如一个为几百万，而另一个为几万或几十万）和计量单位不同对离散程度测度值的影响，需要计算离散系数，其计算公式为： $v x = s x ¯$ $v_x=\frac{s}{\bar{x}}$ 离散系数的作用主要是用于比较不同样本的离散程度。离散系数越大，说明离散程度越大。离散系数越小，说明离散程度就越小（当平均数趋于零时，离散系数就趋于无穷大，此时需要按照实际情况进行解释）。

2.2 假设所分析的的数据包括属性age，它在数据元组中的值（以递增序）为13,15,16,16,19,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70.

该数的均值是多少？中位数是什么？
该数的均值为29.963，中位数是25。
该数据的众数是什么？讨论数据的模态（即二模、三模等）。
该数据的众数为25和35，即该数据是一个双峰的分布，即二模。
该数据的中列数是多少？
该数据的中列数为(70+13)/2=41.5。
你能粗略的找出该数据的第一个四分位数( $Q_1$ )和第三个四分位数( $Q_3$ )吗？
第一个四分位数为： $\left\lceil\frac{27}{4}\right\rceil=7$ 处， $Q_1=20$ ，第三个四分位数为： $7*3=21处$ ， $Q_3=35$ 。
给出该数据的五数概括。
根据以上，得到了最小观测值、 Q1、Q2、Q3

最低0.47元/天解锁文章

「已注销」

关注

27
点赞
踩
107

收藏

觉得还不错? 一键收藏
11
评论
数据挖掘概念与技术（原书第三版）范明孟小峰译-----第二章课后习题答案

数据挖掘概念与技术（原书第三版）范明孟小峰译第二章答案2.1 再给三个用于数据散布特征的常用统计量（即未在本章讨论过的），并讨论如何在大型数据库中有效的计算它们。
复制链接

扫一扫