统计
文章平均质量分 71
小陈统计
这个作者很懒,什么都没留下…
展开
-
R语言数据处理——基于tidyverse (一)
子集的选取——基于tidyverse准备工作1 选取行子集1.1 slice :根据行特征选取行子集1.2 filter :按条件选取行子集2. 去除重复行3 选取列子集the end准备工作(1)安装tidyverse,用于数据处理install.packages("tidyverse")(2)运用R及相关包库及帮助文件进行学习?filter # 查看filter帮助文件 ?slice # 查看slice帮助文件??select # 查看select帮助文件,原创 2022-03-23 18:03:46 · 2877 阅读 · 0 评论 -
Stata重复与去重
我们在处理数据的时候,经常会遇到观测值(数据中,每一行叫一个观测值)有重复的情况;有些时候这些观测值是有差别的,而这些差别有可能要关注,也有可能不关注。下面我们来看一下下图的数据,我截取了某调查数据的一小部分。第一列是Iid,第二列是调查时间,第三列是年龄,第四列是性别。如果我们只看id,我们会发现这些数据存在重复项。观测值1.2.3(第1.2.3行)重复,id都是11004508,观测值4.5重复,id都是11004808,……但如果我们看id,age,sex,我们发现这些数据并不存在重复。例原创 2021-11-16 21:23:11 · 41761 阅读 · 4 评论 -
STATA中的Macro(宏、暂元)、通配符与循环——减少重复性的工作
1. Macro(宏、暂元)的介绍在STATA教程中,Macro也被翻译为宏、暂元等。Macro是程序中的临时变量,由Macro的名称和内容两部分组成,类似于变量名和变量值。Macro有局部宏和全局宏两种。局部宏只存在于定义它的程序之内,并且不能在其他程序中被引用;而全局宏一旦被定义,就会保留在当前Stata内存中,可以被当前STATA会话期间的其他程序所使用。2. 局部宏2.1 局部宏的定义与调用宏的方便之处之一在于,你可以在宏里面加入多个内容。尤其是你需要多次输入同一内容时,定义和调用宏是最简单原创 2021-09-10 20:53:08 · 7763 阅读 · 3 评论 -
R语言基础统计分析:正态性检验、方差齐性检验、T检验、方差分析、秩和检验
R语言基础统计分析1. 正态性检验1.1 Shapiro-Wilk正态检验方法1.2 QQ图2. 方差齐性检验2.1 Bartlett检验,适用于正态分布数据2.2 Levene检验,非正态分布与正态分布数据均适用3. t 检验3.1 单样本t检验3.2 两独立样本t检验3.3 两配对样本t检验4. 方差分析5. 秩和检验5.1 两样本比较5.2 多样本比较1. 正态性检验单变量正态性检验1.1 Shapiro-Wilk正态检验方法# 示列:shapiro.test(var) # 正态性检验,p原创 2021-04-18 17:29:48 · 18824 阅读 · 0 评论 -
大样本OLS模型假设及R实现
异方差1. 异方差的后果(1) OLS 估计量依然无偏、一致且渐近正态。因为在证明这些性质时,并未用到“同方差”的假定。(2) OLS 估计量方差表达式不再是原表达式,t检验,F检验失效;也就是说,你的得到的t值,F值错误。(3) 高斯-马尔可夫定理不再成立,OLS 不再是 BLUE(最佳线性无偏估计)。也就是得到的方程不是最佳的。2. 异方差的检验(1)直观法——绘制残差图(2)3. 异方差的处理(1)使用OLS+稳健标准误(2)加权最小二乘法(WLS)、可行加权最小二乘法(FW原创 2020-09-24 11:30:11 · 4698 阅读 · 1 评论 -
stata代码笔记,随时更新
stata1.stata计数函数***产生新变量var1,其值为ID的重复次数 bysort ID: egen var1=count(ID)2.stata去重***删除ID重复的观测值,只保留不重复的观测值 duplicates drop ID ,force3.stata结果导出为doc***安装asdocssc install asdoc, replace***例1,把...原创 2020-05-03 10:57:07 · 11774 阅读 · 1 评论 -
正态性/方差齐性检验及stata实现
正态性检验及stata实现1. 方法方法如下(假设变量名称为var1)summarize var1, detail / 这是对变量var1的详细描述,里面包含变量的分位数、最大最小值、均数方差标准差,偏度峰度等;正态分布的偏度 Skewness=0;峰度 Kurtosis=3。Skewness/Kurtosis tests命令:sktest var1 / 结果如下上图也包含了对Skewness(偏度)和Kurtosis(峰度)的检验,需两者均大于检验水准(你可以根据实际情况定为0.05等)原创 2020-07-06 12:04:12 · 40349 阅读 · 0 评论 -
多元线性回归模型及stata实现:总论
多元线性回归方程及stata实现一、模型Y=β0+β1X1+β2X2+⋯+βnXn+eY: Dependent variable(因变量、应变量、反应变量、响应变量、被解释变量等)X1、X2⋯Xn:Independent variable(自变量、解释变量、控制变量)如果重点探究一个因素与另一个因素的作用时,纳入模型的其他X通常称为叫控制变量β1、β2⋯βn:偏回归系数、回归系数e: 残差项、残差、扰动项等(代表不包含在模型中的解释变量和其他一些随机因素对被解释变量的总影响项)残差的性质非原创 2020-06-30 20:49:53 · 44617 阅读 · 8 评论 -
统计推断的前提和最应该知道的概念
统计推断的前提和最应该知道的概念之前收到一些同学朋友的咨询,大部分是关于如何计算p值的。诸如:我知道均数和方差可以计算p值吗?或者给我列了列联表让我我计算p值的。面对这样的问题,我很无奈,我的回答一般都是,你有原始资料吗,把原始资料给我看看?可以算,但是如果你仅仅给我均数方差N、仅仅给我一个列联表,它有什么意义呢?今天我将对我以上的发问进行解答,讲一讲在进行统计分析前,最应该知道的东西——样...原创 2020-05-03 18:18:26 · 1624 阅读 · 0 评论