第二章资料整理与特征数计算
资料的类型
资料(data):在生物学试验及调查中能够获得大量的原始数据,是在一定条件下对某种具体事物或现象观察的结果,称之为资料。资料就是变量的值。
对某种现象只能观察不能测量的资料 | 一般是由计数和测量得到的。 |
---|---|
质量性状(qualitative character)资料 | 数量性状(quantitative character)资料 |
花瓣的颜色 | 鱼尾数,玉米籽粒数 |
治疗疾病的痊愈,好转 | 高度,重量 |
•生物统计学归根结底就是用样本来估计总体的问题,所以统计分析的基础就是样本的搜集。
试验(experiment):•对一定数量的有代表性试验单位,在一定条件下进行有探索性的研究工作。遵循随机、重复和局部控制三项基本原则
资料的整理
更正缺失数据、重复值和异常值
利用SPSS软件绘制
频数分布表(frenqucy table)、条形图(bar chart)、直方图(histogram)、饼图(pie chart)、散点图(scatter chart)
资料特征数的计算
变量的分布具有两个明显的基本特征
集中性(centrality)•反映集中性的特征数是平均数。
离散性(discreteness)•反映离散性的特征数是变异数。
平均数(mean):算术平均数、中位数、众数、几何平均数(geometric mean)
中位数(median)、众数(mode):适用于服从偏态分布的数据
变异数(variance):极差(range)、方差(variance)、标准差(standard deviation)、四分位数间距(quartile range)、变异系数(coefficient of variability)
标准差是衡量变量资料变异程度的最好指标
•1. 标准差受到所有观测值的影响。
•2. 将各观测值减去一个常数a,其标准差不变;将各观测值乘以一个常数a,其标准差扩大了a倍。
•3. 标准差和平均数一样,与观测值具有相同的单位。
•4. 因为利用了算术平均数,所以同样不适合偏态分布。
Q1,Q2和Q3恰好把资料分成四个相同大小的组分,所以叫四分位数,•四分位数间距Q=Q3-Q1。
变异系数没有单位:标准差除以样本平均数乘以100%
算术平均数总是大于几何平均数