2021-04-25

如何使用SPSS检验数据是否服从正态分布—KS检验与Q-Q图

在使用IBM SPSS Statistics参数检验中的T检验时,一般情况下,都需先验证数据是否服从正态分布。如果服从正态分布的话,就可以执行T检验;反之,则需要使用非参数检验的方法。

那么,该如何使用SPSS检验数据是否服从正态分布呢?我们可以使用非参数检验中的KS检验、图表中的Q-Q图、描述统计中的偏度峰度系数、探索统计的正态验证来进行数据的正态分布检验。本文会先重点介绍KS检验与Q-Q图

一、KS检验

KS检验,是Kolmogorov-Smirnov检验的简称,中文译为柯尔莫哥洛夫-斯米尔诺夫检验,是一种检验拟合优度的检验方法,可用于检验数据是否服从理论分布,比如是否服从正态分布。

接下来,我们使用一组初中生的身高数据来作为示例数据。

图1:示例数据

然后,如图2所示,在SPSS的非参数检验菜单中,打开单样本KS检验功能。

图2:KS检验功能

如图3所示,在KS检验设置面板中,重点是要进行检验变量与检验分布的设置。本例需要检验的是身高样本数据是否服从正态分布,因此,需要将身高变量添加到检验变量,并勾选检验分布中的“正态”选项。

在正态检验选项中,一般情况下,选择默认的“使用样本数据”即可。

图3:KS检验设置

然后,再打开选项面板,勾选所需的统计数值(建议勾选描述)与缺失值的处理方式。

图4:选项设置

完成检验设置后,运行检验。

如图5所示,在KS检验结果中,可以看到,当前检验的分布是正态分布,而其渐进显著性数值为0.00<0.05,因此拒绝原假设,也就是说,示例身高样本数据不符合正态分布

图5:KS检验结果

二、Q-Q图

Q-Q图,是Quantile-Quantile图的简称,通过计算两个数据的分位数来绘制散点图,从而检验数据是否服从理论分布。

正态Q-Q图,即实测值与预期的正态值组成的散点图。如果数据服从正态分布的话,数值在Q-Q图的分布会呈现直线型;反之则不服从正态分布。

Q-Q图属于SPSS描述统计中的一种,如图6所示,依次单击分析-描述统计-Q-Q图。

图6:Q-Q图功能

如图7所示,基于本文的数据验证目的—验证身高样本数据是否服从正态分布,需将身高变量添加到变量选项,并在检验分布中选取“正态”选项。其他选项,一般情况下,保持默认即可。

图7:Q-Q图设置

完成以上设置后,运行检验。

从图8的身高正态Q-Q图看到,散点图上的数值似乎接近与直线很接近。但由于身高的差别数值较小,我们还需要具体看看数值与直线的偏离大小。

图8:身高正态Q-Q图

从图8的去趋势正态Q-Q图看到,实际上,实测值与正态的偏差还是比较大的,因此,不能确切说明身高样本数据服从正态分布。

图9:去趋势正态Q-Q图

三、小结

综上所示,通过正态Q-Q图,我们可以直观地观察到数据的正态分布情况,但当数值与直线有一定偏离的情况下,还需要借助去趋势正态Q-Q图,以及KS检验来进一步检验数据的正态性。

除了KS图与Q-Q图外,SPSS的描述统计、探索统计也可以帮助我们进行正态检验,如需获取该部分内容,可前往IBM SPSS Statistics中文网站。

 

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
使用python中的pymsql完成如下:表结构与数据创建 1. 建立 `users` 表和 `orders` 表。 `users` 表有用户ID、用户名、年龄字段,(id,name,age) `orders` 表有订单ID、订单日期、订单金额,用户id字段。(id,order_date,amount,user_id) 2 两表的id作为主键,`orders` 表用户id为users的外键 3 插入数据 `users` (1, '张三', 18), (2, '李四', 20), (3, '王五', 22), (4, '赵六', 25), (5, '钱七', 28); `orders` (1, '2021-09-01', 500, 1), (2, '2021-09-02', 1000, 2), (3, '2021-09-03', 600, 3), (4, '2021-09-04', 800, 4), (5, '2021-09-05', 1500, 5), (6, '2021-09-06', 1200, 3), (7, '2021-09-07', 2000, 1), (8, '2021-09-08', 300, 2), (9, '2021-09-09', 700, 5), (10, '2021-09-10', 900, 4); 查询语句 1. 查询订单总金额 2. 查询所有用户的平均年龄,并将结果四舍五入保留两位小数。 3. 查询订单总数最多的用户的姓名和订单总数。 4. 查询所有不重复的年龄。 5. 查询订单日期在2021年9月1日至9月4日之间的订单总金额。 6. 查询年龄不大于25岁的用户的订单数量,并按照降序排序。 7. 查询订单总金额排名前3的用户的姓名和订单总金额。 8. 查询订单总金额最大的用户的姓名和订单总金额。 9. 查询订单总金额最小的用户的姓名和订单总金额。 10. 查询所有名字中含有“李”的用户,按照名字升序排序。 11. 查询所有年龄大于20岁的用户,按照年龄降序排序,并只显示前5条记录。 12. 查询每个用户的订单数量和订单总金额,并按照总金额降序排序。
06-03
这里是使用 Python 的 PyMySQL 完成上述任务的代码: ```python import pymysql # 连接数据库 conn = pymysql.connect(host='localhost', port=3306, user='root', password='123456', database='test') # 创建游标 cur = conn.cursor() # 创建 users 表 cur.execute(''' CREATE TABLE users ( id INT PRIMARY KEY, name VARCHAR(20), age INT ) ''') # 创建 orders 表 cur.execute(''' CREATE TABLE orders ( id INT PRIMARY KEY, order_date DATE, amount INT, user_id INT, FOREIGN KEY (user_id) REFERENCES users(id) ) ''') # 插入数据 users_data = [ (1, '张三', 18), (2, '李四', 20), (3, '王五', 22), (4, '赵六', 25), (5, '钱七', 28) ] orders_data = [ (1, '2021-09-01', 500, 1), (2, '2021-09-02', 1000, 2), (3, '2021-09-03', 600, 3), (4, '2021-09-04', 800, 4), (5, '2021-09-05', 1500, 5), (6, '2021-09-06', 1200, 3), (7, '2021-09-07', 2000, 1), (8, '2021-09-08', 300, 2), (9, '2021-09-09', 700, 5), (10, '2021-09-10', 900, 4) ] for user in users_data: cur.execute('INSERT INTO users VALUES (%s, %s, %s)', user) for order in orders_data: cur.execute('INSERT INTO orders VALUES (%s, %s, %s, %s)', order) # 提交事务 conn.commit() # 查询语句 # 1. 查询订单总金额 cur.execute('SELECT SUM(amount) FROM orders') print(cur.fetchone()[0]) # 2. 查询所有用户的平均年龄,并将结果四舍五入保留两位小数。 cur.execute('SELECT ROUND(AVG(age), 2) FROM users') print(cur.fetchone()[0]) # 3. 查询订单总数最多的用户的姓名和订单总数。 cur.execute(''' SELECT users.name, COUNT(*) AS total_orders FROM users JOIN orders ON users.id = orders.user_id GROUP BY users.id ORDER BY total_orders DESC LIMIT 1 ''') print(cur.fetchone()) # 4. 查询所有不重复的年龄。 cur.execute('SELECT DISTINCT age FROM users') print([row[0] for row in cur.fetchall()]) # 5. 查询订单日期在2021年9月1日至9月4日之间的订单总金额。 cur.execute('SELECT SUM(amount) FROM orders WHERE order_date BETWEEN "2021-09-01" AND "2021-09-04"') print(cur.fetchone()[0]) # 6. 查询年龄不大于25岁的用户的订单数量,并按照降序排序。 cur.execute(''' SELECT users.name, COUNT(*) AS total_orders FROM users JOIN orders ON users.id = orders.user_id WHERE age <= 25 GROUP BY users.id ORDER BY total_orders DESC ''') print(cur.fetchall()) # 7. 查询订单总金额排名前3的用户的姓名和订单总金额。 cur.execute(''' SELECT users.name, SUM(amount) AS total_amount FROM users JOIN orders ON users.id = orders.user_id GROUP BY users.id ORDER BY total_amount DESC LIMIT 3 ''') print(cur.fetchall()) # 8. 查询订单总金额最大的用户的姓名和订单总金额。 cur.execute(''' SELECT users.name, SUM(amount) AS total_amount FROM users JOIN orders ON users.id = orders.user_id GROUP BY users.id ORDER BY total_amount DESC LIMIT 1 ''') print(cur.fetchone()) # 9. 查询订单总金额最小的用户的姓名和订单总金额。 cur.execute(''' SELECT users.name, SUM(amount) AS total_amount FROM users JOIN orders ON users.id = orders.user_id GROUP BY users.id ORDER BY total_amount ASC LIMIT 1 ''') print(cur.fetchone()) # 10. 查询所有名字中含有“李”的用户,按照名字升序排序。 cur.execute('SELECT * FROM users WHERE name LIKE "%李%" ORDER BY name ASC') print(cur.fetchall()) # 11. 查询所有年龄大于20岁的用户,按照年龄降序排序,并只显示前5条记录。 cur.execute('SELECT * FROM users WHERE age > 20 ORDER BY age DESC LIMIT 5') print(cur.fetchall()) # 12. 查询每个用户的订单数量和订单总金额,并按照总金额降序排序。 cur.execute(''' SELECT users.name, COUNT(*) AS total_orders, SUM(amount) AS total_amount FROM users JOIN orders ON users.id = orders.user_id GROUP BY users.id ORDER BY total_amount DESC ''') print(cur.fetchall()) # 关闭游标和连接 cur.close() conn.close() ``` 注意:在运行代码之前,需要先安装 PyMySQL 模块,可以使用以下命令进行安装: ``` pip install pymysql ```

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值