样本采样

你今天机器学习了么

于 2020-06-14 09:05:10 发布

阅读量1.8k

点赞数

文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/None_Pan/article/details/106741309

版权

当您对一组人进行研究时，几乎不可能从该组中的每个人那里收集数据。而是选择一个样本。样本是将实际参与研究的一组个人。

为了从结果中得出有效的结论，您必须仔细决定如何选择代表整个群体的样本。采样方法有两种：

概率抽样涉及随机选择，使您可以对整个组进行统计推断。

非概率采样涉及基于便利性或其他条件的非随机选择，使您可以轻松收集初始数据。

人口与样本

首先，您需要了解总体与样本之间的差异，并确定研究的目标人群。

总体是您要得出结论的整个群体。
该样本是您要从中收集数据的特定人群。

可以根据地理位置，年龄，收入和许多其他特征来定义人口。

人口与样本之间的关系可能非常广泛或非常狭窄：也许您想对您国家的整个成年人口进行推断；也许您的研究集中于某家公司的客户，患有特定健康状况的患者或一所学校的学生。

根据项目的目的和实用性仔细定义目标人群非常重要。

如果人口很大，人口混合且地理位置分散，则可能很难获得代表性样本。
在这里插入图片描述
采样框
抽样框架是从中抽取样本的个人的实际列表。理想情况下，它应该包括整个目标人群（不属于该人群的任何人）。

例子：

我们正在研究X公司的工作条件。人口全部是该公司的1000名员工。您的抽样框是公司的HR数据库，其中列出了每位员工的姓名和联系方式。

样本量
样本中的个体数量取决于总体数量，并且取决于您希望结果以多大的精确度来代表整个总体。

您可以使用样本量计算器来确定样本量。通常，样本量越大，就越能准确，自信地推断出整个人群。

概率抽样方法
概率抽样意味着人口中的每个成员都有被选中的机会。它主要用于定量研究。如果要产生代表整个总体的结果，则需要使用概率采样技术。

概率样本有四种主要类型。
在这里插入图片描述
1.简单随机抽样
在简单的随机样本中，人口中的每个成员都有被选择的平等机会。您的抽样范围应包括整个人口。

要进行此类采样，您可以使用随机数生成器之类的工具或完全基于偶然性的其他技术。

例

您想要选择一个简单的100个公司X员工的随机样本。您要为公司数据库中的每个员工分配一个从1到1000的数字，并使用随机数生成器选择100个数字。

2.系统抽样
系统抽样类似于简单随机抽样，但通常更容易进行。人口的每个成员都列出了一个数字，但是不是随机生成数字，而是按固定的时间间隔选择个体。

例

公司的所有员工均按字母顺序列出。从前10个数字中随机选择一个起点：数字6。从数字6开始，选择列表中的第10个人（6、16、26、36等），最后得到一个样本100人。
如果使用此技术，请确保列表中没有任何可能会使样本倾斜的隐藏模式，这一点很重要。例如，如果HR数据库按团队将员工分组，并且按年长顺序列出团队成员，则存在您的时间间隔可能会跳过担任初级职位的人员的风险，从而导致样本偏向高级员工。

3.分层抽样
当总体具有混合特征时，此采样方法是合适的，并且您要确保样本中每个特征均按比例表示。

您可以根据相关特征（例如性别，年龄范围，收入等级，工作角色）将人口划分为子组（称为阶层）。

从总体人口比例中，您可以计算每个子组应抽样的人数。然后，您可以使用随机或系统抽样从每个子组中选择一个样本。

例

该公司有800名女性员工和200名男性员工。您要确保样本反映了公司的性别平衡，因此您需要根据性别将总体分为两个层次。然后，您对每个组进行随机抽样，选择80名女性和20名男性，这为您提供了100人的代表性样本。

4.整群抽样
整群抽样还涉及将总体分为子组，但每个子组应具有与整个样本相似的特征。您可以从整个子组中随机选择，而不是从每个子组中抽样。

如果切实可行，则可以包括每个采样群集中的每个人。如果群集本身很大，您还可以使用上述一种技术从每个群集中采样个人。

该方法适用于处理较大且分散的总体，但是样本中存在错误的风险更大，因为群集之间可能存在实质性差异。很难保证所采样的集群确实能代表整个人口。

例

该公司在全国10个城市设有办事处（所有职位相同的员工人数大致相同）。您没有能力去每个办公室收集数据，因此您使用随机抽样来选择3个办公室-这就是您的集群。

非概率抽样方法
在非概率样本中，根据非随机标准选择个体，并非每个个体都有被包括在内的机会。

这种类型的样本更容易获得且更便宜，但是存在抽样偏差的风险较高，并且您不能使用它来对整个人群进行有效的统计推断。

非概率采样技术通常适合于探索性和定性研究。在这些类型的研究中，其目的不是要检验有关广泛人口的假设，而是要对少量或研究不足的人口形成初步了解。

在这里插入图片描述
1.方便抽样
便利样本仅包括研究人员最容易接触到的个人。

这是一种收集初始数据的简便且廉价的方法，但是无法判断样本是否代表总体，因此无法产生可概括的结果。

例

您正在研究有关大学中学生支持服务的意见，因此，每堂课结束后，您都要求同学们完成有关该主题的调查。这是一种方便的数据收集方式，但是由于您只调查了与您在同一级别上相同班级的学生，因此样本并不代表您所在大学的所有学生。

2.自愿反应抽样
类似于便利性样本，自愿响应样本主要基于访问的难易程度。人们没有选择自己的参与者并直接与他们联系，而是自愿为自己服务（例如，通过对公开的在线调查做出回应）。

自愿回应样本至少总是有些偏见，因为某些人天生就比其他人更愿意做志愿者。

例

您将调查表发送给您所在大学的所有学生，很多学生决定完成它。当然，这可以使您对该主题有所了解，但做出答复的人更有可能是对学生支持服务有强烈见解的人，因此您不能确定他们的观点是否代表所有学生。

3.目的抽样
这种类型的抽样涉及研究人员使用他们的判断来选择对研究目的最有用的样本。

它通常用于定性研究中，研究人员希望获得有关特定现象的详细知识，而不是进行统计推断。有效的目的样本必须具有明确的纳入标准和理由。

例

您想更多地了解大学中残疾学生的意见和经历，因此您有目的地选择了一些具有不同支持需求的学生，以收集有关他们在学生服务方面的经历的各种数据。

4.雪球采样
如果人群难以接近，可以使用雪球采样通过其他参与者招募参与者。与更多人联系时可以使用“雪球”的人数。

例

您正在研究城市中无家可归的经历。由于没有城市中所有无家可归者的清单，因此不可能进行概率抽样。您遇到一个同意参加该研究的人，她会让您与该地区认识的其他无家可归者联系。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。