目录
2.1什么是数据可视化.........................................................................5
2.2 运用到的可视化函数...................................................................5
散点图: 11
- 数据简介
下表是1985年美国50个州和哥伦比亚特区公立学校中教师的人均年工资y(美元)和对学生的人均经费投入x(美元)关系表:
- 数据可视化原理
2.1什么是数据可视化
数据可视化,是关于数据视觉表现形式的科学技术研究。其中,这种数据的视觉表现形式被定义为,一种以某种概要形式抽提出来的信息,包括相应信息单位的各种属性和变量。
它是一个处于不断演变之中的概念,其边界在不断地扩大。主要指的是技术上较为高级的技术方法,而这些技术方法允许利用图形、图像处理、计算机视觉以及用户界面,通过表达、建模以及对立体、表面、属性以及动画的显示,对数据加以可视化解释。与立体建模之类的特殊技术方法相比,数据可视化所涵盖的技术方法要广泛得多。
2.2 运用到的可视化函数
(1)箱线图
箱形图经常在学术刊物中被使用,用来表示两组或多组的数值。箱子的底部和顶部分别表示第一分位数和第三分位数,而箱子内部中间的线表示中位数。值得注意的是上下的须,存在着不同的习惯用法。最常见的形式是,下面的须表示在第一分位数外1.5×IQR(四分位距)范围内的最低值,而上面的须表示在第三分位数外1.5×IQR(四分位距)范围内的最高值。离群值(在上下须之外)被单独绘制。另一个习惯用法是,须表示了整个数据的范围。
boxplot函数中的关键属性:
x:指定要绘制箱线图的数据;
notch:是否是凹口的形式展现箱线图,默认非凹口;
sym:指定异常点的形状,默认为'o'号显示;
vert:是否需要将箱线图垂直摆放,默认垂直摆放;
whis:指定上下须与上下四分位的距离,默认为1.5倍的四分位差;
positions:指定箱线图的位置,默认为[0,1,2…];
widths:指定箱线图的宽度,默认为0.5;
patch_artist:是否填充箱体的颜色;
meanline:是否用线的形式表示均值,默认用点来表示;
showmeans:是否显示均值,默认不显示;
showcaps:是否显示箱线图顶端和末端的两条线,默认显示;
showbox:是否显示箱线图的箱体,默认显示;
showfliers:是否显示异常值,默认显示;
boxprops:设置箱体的属性,如边框色,填充色等;
boxprops = {'color':'g', 'facecolor':'yellow'}
'color' : 'g' 箱子外框的颜色
'facecolor' : 'yellow' 箱子填充的颜色
labels:为箱线图添加标签,类似于图例的作用;
flierprops:设置异常值的属性,如异常点的形状、大小、填充色等;
medianprops:设置中位数的属性,如线的类型、粗细等;
meanprops:设置均值的属性,如点的大小、颜色等;
capprops:设置箱线图顶端和末端线条的属性,如颜色、粗细等;
whiskerprops:设置须的属性,如颜色、粗细、线的类型等;
- 散点图
散点图是指在回归分析中,数据点在直角坐标系平面上的分布图,散点图表示因变量随自变量而变化的大致趋势,据此可以选择合适的函数对数据点进行拟合。
用两组数据构成多个坐标点,考察坐标点的分布,判断两变量之间是否存在某种关联或总结坐标点的分布模式。散点图将序列显示为一组点。值由点在图表中的位置表示。类别由图表中的不同标记表示。散点图通常用于比较跨类别的聚合数据。
scaate函数中的关键属性:
x:指定散点图的x轴数据。
y:指定散点图的y轴数据。
s:指定散点图点的大小,默认为20,通过传入其他数值型变量,可以实现气泡图的绘制。
c:指定散点图点的颜色,默认为蓝色,也可以传递其他数值型变量,通过cmap参数的色阶表示数值大小。
marker:指定散点图点的形状,默认为空心圆。
cmap:指定某个Colormap值,只有当c参数是一个浮点型数组时才有效。
norm:设置数据亮度,标准化到0~1,使用该参数仍需要参数c为浮点型的数组
vmin、vmax:亮度设置,与norm类似,如果使用norm参数,则该参数无效。 alpha:设置散点的透明度。
linewidths:设置散点边界线的宽度。
edgecolors:设置散点边界线的颜色。
- 统计假设检验
3.1什么是假设检验
假设检验 (hypothesis testing)又称统计假设检验,是用来判断样本与样本、样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。显著性检验 是假设检验中最常用的一种方法,也是一种最基本的统计推断形式,其基本原理是先对总体的特征做出某种假设,然后通过抽样研究的统计推理,对此假设应该被拒绝还是接受做出推断。常用的假设检验方法有 Z检验、t检验、卡方检验、F检验 等。
3.2 t假设检验的原理
t检验最常见的四个用途:
单样本均值检验(One-sample t-test)
用于检验总体方差未知、正态数据或近似正态的 单样本的均值 是否与 已知的总体均值相等
两独立样本均值检验(Independent two-sample t-test)
用于检验 两对独立的 正态数据或近似正态的 样本的均值 是否相等,这里可根据总体方差是否相等分类讨论
配对样本均值检验(Dependent t-test for paired samples)
用于检验 一对配对样本的均值的差 是否等于某一个值
回归系数的显著性检验(t-test for regression coefficient significance)
用于检验 回归模型的解释变量对被解释变量是否有显著影响
3.3 t假设检验步骤
1 单样本T检验
1.1 单样本T检验概念
目的:利用来自某总体的样本数据,推断该总体的均值是否与指定的检验值之间存在显著性差异。
前提:样本来自的总体服从正态分布。
基本思想:首先,计算出样本均值;其次,根据经验或以往的调查结果,对总体的均值提出一个假设,即μ=μ0(μ0为待检验的总体均值);然后,分析计算出的样本均值来自均值为μ0的总体的概率,如果概率很小,则认为总体的均值不是μ01。
1.2 单样本T检验步骤
(1)提出原假设和备择假设:原假设H0认为总体均值与检验值之间不存在显著差异,即原假设H0:μ=μ0,备择假设H1:μ≠μ0。
(2)确定检验统计量:检验统计量为t统计量。
(3)计算检验统计量的观测值和p值:SPSS或R语言等软件可直接计算。
(4)确定显著性水平α,并作出决策:一般情况下使用最多的α值是0.05, 也可结合具体情况使用0.001, 0.005, 0,0001等。如果p值小于或等于显著性水平α,就拒绝原假设,即认为总体均值与检验值之间存在显著差异;如果p值大于显著性水平α,就接受原假设,即认为总体均值与检验值之间无显著差异。
2 独立样本T检验
2.1 独立样本T检验概念
根据来自两个总体的独立样本对其总体均值进行的检验称为独立样本T检验,即两个独立总体均值μ1和μ2之间差异的假设检验。
目的:通过比较两个样本均值(差)的大小以确定两个总体的均值是否存在显著性差异。
前提:
(1)独立:两组数据相互独立,互不相关;
(2)正态:两组样本来自的总体服从正态分布;
(3)方差齐性:两组方差相等。
基本思想:按照一定的分组原则将所有的个案分为两组,可将这两组视为两个独立的样本,对两个样本分别进行描述统计。然后对两个样本进行方差齐性检验(也称为等方差检验)和T检验。如果均值差过大,则说明这两个样本来源于均值不同的两个总体,就可以拒绝两个总体均值具有显著差异的原假设。
2.2 独立样本T检验步骤
(1)提出原假设和备择假设:原假设H0:μ1=μ2;备择假设:μ1≠μ2。
(2)确定检验统计量。
(3)计算检验统计量的观测值和概率p值。
(4)给定显著性水平α,并作出决策。
F检验判断两总体的方差是否存在显著差异。如果F检验统计量的概率p值小于或等于显著性水平α,则拒绝原假设,即认为两者总体方差存在显著性差异;反之,则接受原假设。
T检验判断两总体均值是否存在显著差异。如果T检验统计量的概率p值小于或等于显著性水平α,则拒绝原假设,即认为两者总体均值存在显著性差异;反之,则接受原假设。
- 数据处理代码及其结果
4.1源代码
#相关库的导入
import matplotlib.pyplot as plt
from scipy import stats
#数据读取
data = pd.read_csv('教师工资与学生费.csv',encoding='utf-8')
# 读取数据
x=data[['x']]
y=data[['y']]
#设置中文显示
plt.rcParams['font.sans-serif']='SimHei'
plt.rcParams['axes.unicode_minus']=False
#绘制教师工资与学生经费的箱线图
plt.boxplot(x,sym='r')
plt.boxplot(y,sym='b')
plt.title('教师工资与学生经费箱线图')
plt.show()
#画出散点图
plt.figure(figsize=(8,7))#设置画布
plt.xlabel('教师工资(美元)'),plt.ylabel('学生经费(美元)')
plt.title('教师工资与学生经费散点图')
plt.scatter(x,y)
plt.show()
#t检验
t_and_p = stats.stats.ttest_ind(x,y)
print(t_and_p)
4.2运行结果及结论
箱线图:
从箱线图可以看出:
- 教师工资和学生经费波动程度相同
- 教师工资离差较大,学生经费离差较小
- 教师工资平均水平在2300左右
- 教师工资和学生工资都不存在异常值
散点图:
从散点图可以看出:
- 教师工资与学生经费存在一定的相关性
- 教师工资与学生经费存在偏差较大的值
进行t检验结果: