- 博客(379)
- 收藏
- 关注
原创 R语言——直方图
最后,每个等级中男性和女性的工资分布有相同的中位数,但在教授和副教授级别中有更多的男性处于工资的高端。我们来生成一组直方图,为每个等级(3 个等级)和性别(2 种性别)的组合,或者说共 6 种组合,生成各自的直方图。然而,男性的分布不那么容易解释:因为柱形条的底部在不同的水平线上,很难比较它们的高度。注意 histogram() 命令的语法稍微不同,要做直方图的变量位于~符号右侧,由变量组合形成的组后紧跟竖线符号(|),使用星号(*)表示跨两个变量。这里使用的是基础函数,并未使用上述函数,但效果一样。
2025-06-12 01:00:00
452
原创 R语言——茎叶图
你也许不会将这种类型的图用在最后的展示中,但可能会发现这个优雅的工具有助于理解直方图,而且在项目的探索阶段它是有启发作用的。这种类型的图不仅可以揭示数据分布的大致形状,还可以显示每个数据点的值。许茎叶图看起来没有其他一些有好看形状和颜色的图吸引人,但此类图显示了所研究向量中的每个数字的精确值,这可以帮助理解数据,也有助于对图的修改。然后,为同一范围内的所有值保留一行,并且在适当的行上写下每个数值的最后一位有效数字。每个茎的宽度减半(即宽度为5而不是10),而茎的数量变成的之前的2倍。
2025-06-11 01:00:00
284
原创 R语言——箱线图
Mathach被拆分为多个组,生成的箱线图如下:这次par()函数通过给参数mfrow传递一个表示2行2列的向量来设置一页显示4张图。通过参数sub="text to appear"使每张图的x轴上有一个标签,表明生成此图的命令。还有一种不同类型的图会揭示更多的信息:箱线图可以展示几个关键信息,它们在带状图中是不明显的。这两个带状图仅能展示了数据大体的分布情况,且是在使用了极小符号"."的情况下才可以看得清楚。示例二:使用Nimrod数据集,用箱线图研究各种乐器及业余与专业剧团的表演时间的分布情况。
2025-06-10 01:00:00
338
原创 R语言——点图
颜色可以吸引观察者的注意,所以用参数col将点和标签设置为不同的颜色。图中的线也靠的非常近,为方便阅读,可以尝试逐条线交替使用不同的颜色显示。因为只指定了两种颜色,所以当R需要为第三个州添加颜色时,它会返回使用第一个颜色,依此类推,直到所有州都有颜色。请注意,数据框中的每一行有一个州名。现在,可以很容易看到哪个州谋杀逮捕率最高,哪个州谋杀逮捕率最低。当然,可以从数据表中看出这些信息,但通过这张图,一眼便可看出各州之间的相对差异。参数cex可以改变字符大小:cex的默认值为1,他的值越小,字符显示地就越小。
2025-06-09 01:00:00
391
原创 R语言——带状图
因此,即使是完全相同的数据,每次执行抖动的stripchart()命令时,结果也会略有不同的,但每个点在水平方向上的位置是相同。对于带状图来说,最好的符号是哪些重叠最少的符号,往往是空心圆(pch=1)或非常小的符号(pch=18或pch=20)。在上图的中,Volume的单个极值似乎没有处于适当的位置,超出了图像的范围,我们可以使用参数xlim延长坐标轴来解决这个问题。每一个参数可在图周围,以参数表示的形。adj表示“对齐”,参数=1表示在最右边,=0表示在最左边,0~1的值表示位于右边和右边的距离。
2025-06-08 01:00:00
833
原创 R语言——正交试验设计2
因为每个因素水平均值的极差抵消了其他因素取不同水平对效应的影响,从而认为,该因素各水平的差异是由于因素本身引起的,因素水平极差大,说明该因素水平的改变对试验结果影响大,意味着该因素重要;正交试验结果方差分析的基本思想是把由于因素(含交互作用)水平变化所引起试验结果的差异与试验误差分开,用因素水平变化所引起的试验结果的变化与试验误差之比作为统计量(F比),来衡量因素对试验结果的影响有无统计学意义。还可以通过barplot()函数,将各水平的均值绘制成条形图,对因素各水平对试验指标的影响进行判断。
2025-06-07 01:00:00
889
原创 R语言——正交试验设计1
考虑进行一个3因素,每个因素有3个水平的试验。正交试验设计是研究多因素多水平的一种设计方法,它是根据正交性从全面试验中挑选出部分有代表性的点进行试验,这些有代表性的点具备“均匀分散,齐整可比”的特点。如果将A,B,C三个因素分别安排在正交表的1,2,3列,则试验方案为A1B1C1,A1B2C2,A1B3C3,A2B1C2,A2B2C3,A3B1C3,A3B2C1,A3B3C2,这些试验方案的确定则是根据。正交试验设计的基本特点是:用部分试验来代替全面试验,通过对部分试验结果的分析,了解全面试验的情况。
2025-06-06 01:00:00
642
原创 R语言——尧敦方试验设计
三因素试验通常采用拉丁方设计,但是它有一个重要前提,在设计上要求三个因素(处理、区组、序列)的水平数相等。然而,在实际工作中,有时在处理水平固定的条件下,其他两个因素中有一个的水平数少于处理水平数。在这种情况下无法使用拉丁方设计进行试验,此时可以采用尧敦方试验设计。原则上讲,尧敦方试验设计的应用范围与拉丁方试验设计情况相同但它仅适用于其他两因素中有一因素水平数少于处理水平数的情况。在尧敦方试验设计中,由于行列的水平与处理因素的水平不全相等包含处理全部水平与全部行数,对。,不能用拉丁方设计,需用尧方设计。
2025-06-05 01:00:00
284
原创 R语言——拉丁方试验设计
由于拉丁方试验设计的变异来源分为四项:处理间、区组间、序列间和误差,得到的信息有3个,并且误差较小,因此这是一种节约样本量的高效率试验设计但是由于它在因素和水平上有严格的限制,nxn个试验单元必须排列成n行n列,这样使试验空间缺乏伸缩性,重复太多,要估计的效应太多,剩下的误差自由度太少,用起来缺乏灵活性,而且不能显示因素间的交互作用,故在应用上有一定的局限性。拉丁方试验设计是在随机区组试验设计的基础上发展起来的,它可多安排一个已知对试验结果有影响的非处理因素,增加试验的均衡性,减少了误差,提高了效率。
2025-06-04 01:00:00
534
原创 R语言——随机区组试验数据的分析方法
如从专业的角度,第二因素(区组因素)作用尚待确定者,则将区组间与误差二项合并为组内;若第二因素作用已经确定无疑,设计与分析该因素的目的是为了减少误差则不应合并。方差分析结果表明,广告类型对于产品销售的影响没有统计学差异,而城市规模对于产品销售有非常显著的影响。在方差分析的基础上,应进一步通过均数多重比较,分析因素不同水平对试验指标的影响。,即将变异来源分为处理间、区组间和误差三项,分析处理间差异和区组间差异有无统计学意义。在获得试验数据之后,我们可以将数据导入到R语言中进行数据统计分析。
2025-06-03 01:00:00
253
原创 利用R语言生成区试中随机区组试验设计——多点
目前,区试要求对照不得位于区组的首尾小区,且不同区组的相邻小区位置不得出现同一品种。local_name为试验点名称的向量,默认为NULL。当不为空时,local_num的数值将自动等于local_name向量的长度。block表示区组数,默认单个试验点的区组数为3,也可以对不同试验点设置不同的区组数,此时用向量表示即可。local_num表示试验点数量,默认只有一个试验点,与local_name是二选一的。same默认为FALSE,表示要求单个试验点不同区组的同一小区位置不出现同一品种。
2025-06-02 01:00:00
232
原创 利用R语言生成区试中的随机区试试验设计
目前,区试要求对照不得位于区组的首尾小区,且不同区组的相邻小区位置不得出现同一品种。基于这一要求,编写了R语言的随机区组试验设计。此函数仅用于一个试验点的情况。same默认为FALSE,表示要求不同区组的同一小区位置不出现同一品种。ck表示是否设置有对照,如果有,则将ck=对照名称。varieties是品种列表,需要是字符向量。block表示区组数,默认为3。
2025-06-01 01:00:00
178
原创 R语言——随机区组试验设计1
各自的差异有无统计学差异的情况,不管是两个或多个处理组,均可采用完全随机区组试验设计。随机区组试验设计,按照一定的条件,将几个条件相同的受试对象划分为一个区组,然后在每个区组内部按随机原则将每个受试对象分配到各组,对每组分别实施不同的处理,然后对其结果进行方差分析。随机区组试验设计时,第一因素应当安排研究的主要因素,第二因素相对次要一点,可以是待考察的因素,也可以是仅仅为了排除它对试验结果的影响。正确划分区组的条件十分重要,总的原则是必须将对试验结果有明显影响的非处理因素列为划分区组的条件,要求。
2025-04-30 01:00:00
781
原创 R语言——完全随机试验设计2
上述完全随机试验设计的数据分析方法,都是基于试验指标正态分布的计量数据,若所获得的试验指标为计数资料,则需要采用非参数的检验法,这里不做介绍。除了通过方差分析,分析多个处理组之间的差异是否具有统计学意义,在R中,还可以通过图形分析的方法,直观地对多个处理组进行比较。因素水平数为2,即处理数为2的两组试验数据,数据性质为计量资料,通常采用t检验对试验数据进行统计学分析。首先计算各组的均值、标准差等,并绘制出两组数据的箱线图,对数据进行基本的探索性分析。方差分析结果显示,五种药物疗法的效果具有显著的不同。
2025-04-29 01:00:00
540
原创 R语言——完全随机试验设计1
完全随机试验设计也叫组间设计被试对象被分成若干组,每组分别接受一种试验处理,有几种试验处理就分为几组,各试验组的受试对象之间相互独立,因而又叫独立组试验设计。完全随机试验设计的本质是将供试对象随机分组,就是要保证每个供试对象都有相同机会接受任何一种处理,而不受试验人员主观倾向的影响。完全随机试验设计也称为单因素试验设计,或成组试验设计,是科学研究和生产实践中最常用的一种试验设计方法。(3)由于未应用局部控制的试验原则,非试验因素的影响被归入试验误差,试验误差较大,试验的精确性较低。完全随机试验设计是采用。
2025-04-28 01:00:00
280
原创 R语言——回归分析6
在很多实际问题中,变量之间的关系可能是非线性的,此时需要采用非线性回归模型。非线性回归具有多种多样的形式,如双曲线、二次曲线、三次曲线、幂函数曲线、指数函数曲线、S形曲线、对数曲线、指数曲线等。因此,非线性回归分析的关键是确定函数的具体形式。在确定非线性函数具体形式之后,仍然是通过最小二乘法获得回归模型,并对其进行统计学的检验。回归系数的显著性检验、回归方程的方差分析结果均显示:x一次及二次项对y都有显著影响。对回归方程的显著性检验结果表明,所建立的多元非线性回归方差与试验数据拟合得较好。
2025-04-27 01:00:00
260
原创 R语言——回归分析5
在残差分布Q-Q图中,落在置信区间以外的点,可以认为是离群点。car包提供了离群点的统计检验方法,outlierTest()函数可以计算最大标准化残差绝对值Bonferroni调整p值,可作为判断是否为离群点的依据。car包的avPlots()函数可以绘制变量添加图,即每个自变量xi绘制xi在其他自变量上回归的残差值相对于因变量在其他自变量上回归的残差值的关系图。上图中的直线表明相应自变量的实际回归系数,可以通过观察删除某些强影响点后直线改变情况来评估强影响点的影响情况。是与其他自变量有关的离群点。
2025-04-26 01:00:00
1154
原创 R语言——回归分析4
对于多个自变量与一个因变量的多元线性回归分析,可以利用逐步回归分析的方法来选择进入回归模型对因变量有显著影响的自变量。但是,这只是从选择自变量的角度来研究问题,没有对模型的其他特性做进一步的分析,也没有对数据本身是否存在异常进行分析。若某个偏回归系数的t检验通不过,可能是该系数相对应的自变量对因变量的影响不显著的原因,那么,可以将该自变量从回归模型中删除,在重新建立回归模型,或更换自变量。自变量之间的共线性或隐藏变量的显著性,增加参数估计的误差,同时获得的模型稳定性下降。对模型造成过度依赖的数据往往是。
2025-04-25 01:00:00
711
原创 R语言——回归分析3
与一元线性回归汇总的决定系数r^2相对应,多元线性回归也有多重决定系数R^2,它是在因变量的总变化中,由回归方程解释的变动(回归平方和)所占的比重。在实际工作中,由于没有清洗的理论依据,回归模型中包含的自变量难以事先确定,如果在回归模型中引入一些不太重要的自变量,会降低模型的精度。其中,b_0为常数项,b1,b2,...,b_k为回归系数,b1是x2,x3...,x_k固定时,x1每增加一个单位对y的效应,即x1对y的偏回归系数。估计标准误差,即因变量y的实际值与回归方程求出的估计值。
2025-04-24 01:00:00
839
原创 R语言——回归分析2
对于给定的显著性水平α,显著性检验要求|r|>r_min时,才说明y与x之间现在密切的线性相关关系,或者说,用所求得的回归方程描述变量y与x之间关系才有意义;cor.test()函数输出结果中,对两变量的相关系数进行了t假设检验,t值为46.169,检验的p值为5.353e-11,同时也输出了相关系数的95%的置信区间为[0.9917926,0.9995744]及其相关系数的大小0.9981,表明变量X与Y高度正相关。根据计算得到的F与临界值之间的关系,判断y与x之间有无明显的线性关系。
2025-04-23 01:00:00
854
原创 R语言——回归分析1
例如,身高与体重的关系,一般情况下,身高越高,体重越重,但是这一规律很难用一个确定的函数关系式来精确描述,然而两者之间确实存在相关关系。若使x取一组不完全相同的值xi(i=1,2,····,n),进行独立试验,就得到与之对应的一组观察值yi(i=1,2,····,n),称xi为自变量,yi为因变量。如果y与x的关系是线性的,则称为一元线性回归。变量之间的关系,通常可以分为两种类型:确定性关系和相关关系当一个变量或几个变量取一定数值时,另一个变量有确定值与之对应,即变量之间存在完全确定的。
2025-04-22 01:00:00
756
原创 R语言——方差分析5
做方差分析时,可根据资料设计的类型及研究目的,将总变异分解为两个或多个部分,每个部分的变异可由某因素的作用来解释,通过比较可能由某因素所致的变异与误差(或组内)变异,即可了解该因素对测定结果有无影响。如果统计分析时只分析最后一次测量结果,会丧失很多“过程”,如测量指标的时间趋势等,而且在统计上,保留“处理”前得信息可以有效评价随机分组的均衡性,也能够提高统计分析的效率。根据输出结果,可以列出两个方差分析表,不同的method间差异显著,pressure在不同的method下不同时间变化的趋势不同。
2025-04-21 01:00:00
298
原创 R语言——方差分析4
所不同的是,双因素方差分析中,有时会出现交互作用,即两个因素的不同水平交叉搭配对试验指标产生影响。在这里,我们不再阐述双因素方差分析的有关变异的分解原理,仅以实例介绍R语言在双因素方差分析中的具体应用。采用aov()函数进行方差分析,由于函数的结果未列出方差分析表中的总和行,我们可以采用自编函数anova.table()来获得完整的方差分析表。HH包中的interaction2wt()函数也可以是绘制类似图形,该函数绘制的图形对任意顺序的因子设计的主效应和交互效应都会展示。(1)不考虑交互作用的方差分析。
2025-04-20 01:00:00
254
原创 R语言——方差分析3
qqPlot()函数需要lm()函数拟合,在本例中绘制的Q-Q图,数据均落在了95%的置信区间内,说明数据满足正态性假设,与shapiro.test()函数进行w正态性检验结果是一致的。因此,根据正态性检验、方差齐性检验和离群点检验,该数据可以进行方差分析,且结果可信。Shapiro-Wilk正态检验结果表明,5种方法除杂量数据均是正态分布。在R中,w检验方法可以通过shapiro.test()函数来完成。,可以利用car报中的outlierTest()函数来检测离群点。③随机性:所有数据都相互独立。
2025-04-19 01:00:00
332
原创 R语言——方差分析2
其中x为响应变量构成的向量,g为分组向量(因子),p.adjust.methods是p值调整的方法,具体有"holm", "hochberg", "hommel", "bonferroni", "BH", "BY", "fdr", "none"。但在均值的多重检验中,如果因素的水平较多,而检验又是同时进行,从R的输出结果可以看出,summary()函数没有输出最后一行的总和行,可以自行编写一个anova.table()函数,将summary()函数输出的第一行和第二行求和,得到总和行。
2025-04-18 01:00:00
871
原创 R语言——方差分析1
是:如果被考察的因素对试验结果没有显著的影响,即所讨论的各正态总体的均值相等,则试验数据的波动完全由随机误差引起;通过上述的变异的分解可以看出,方差分析的基本思想就是根据试验设计的类型,将全部测量值的离均差平方和及其自由度分解为两个或多个部分,除随机误差作用外,每个部分的变异可由某个因素的作用(或某几个因素的交互作用)加以解释,通过比较不同变异来源的均方,借助F分布作出统计推断,从而推断各种研究因素对试验结果有无影响。引起的可以控制的波动。另一部分是因素A的平方和S_A,是由因素A的各水平的差异引起的。
2025-04-17 01:00:00
521
原创 R语言——试验数据的统计推断2
假设检验是对总体的特征(如总体的参数或分布、位置)提出某种假设,如果假设筒体均值为一定值、总体均值相等、总体分布为某种分布、两个总体分布位置相同等等,然后根据随机样本提供的信息,根据统计量的分布规律计算出检验统计量,再根据计算出来的检验统计量确定其概率值,运用小概率原理,由p值判断样本是否只支持原假设,推断假设是否成立,并对假设做出取舍决策,从而最终做出统计推断。否定假设的依据就是小概率原理。检验的P值表示对原假设的怀疑程度,或解释为首次拒绝原假设的概率,P值越小,表示原假设越可疑,从而越应该拒绝原假设。
2025-04-16 01:00:00
847
原创 R语言——试验数据的统计推断1
当标准差未知,不需要输入,此时需要考虑两总体的方差是否相等,如果两总体方差相等,输入var.equal=TRUE,程序采用自由度为n1+n2-2的t分布计算置信区间;函数中,x为来自总体的样本数据所构成的向量,sigma为总体的标准差,当标准差已知时,输入相应的值,程序采用正态分布计算置信区间;某人称自己的体重(单位500g)10次的数据:175,176,173,175,174,173,173,176,173,179。来估计μ,用s估计σ等,其方法简单,但这种统计推断方法没有考虑抽样误差的大小。
2025-04-15 01:00:00
930
原创 R语言——信息、警告、错误处理
如果要防止出现这种情况就是把容易出现错误的代码包括在try函数中,虽然错误仍然会打印到控制台上,但是代码不会停止执行。在下例中,当发生错误时,我们会打印错误消息并返回一个空的数据框。常见的例子是:糟糕的用户输入、较差的数值精度,或意想不到的副作用。message函数能够把它所有的输入拼接起来,中间不需要任何的空格,然后它们都写到控制台。使用tryCatch的另一个技巧:我们可以把一个表达式传递给一个命名为finally的参数,无论错误是否抛出,它都会运行。R语言有三种函数能把程序状态的诊断信息显示出来。
2025-04-14 01:00:00
1485
原创 R语言——线性回归模型
在“Residuals vs Fitted”绘图中右侧出现了大的正残差,这些点在“Normal Q-Q”图中也是明显高于标准线,并且也出现在了“Cook's distance”绘图中的峰值。在本例中,我们只更新公式的右边,而左边保持不变。由lm返回的模型变量相当复杂,为简便起见,在此我们不包括其输出,但我们可以按照通常的方法来探索这些模型的结构。通常,我们不会满足于所得到的第一个模型,而是想找到“最佳”模型或一些能提供洞见的模型。用于测量模型质量的指标,如p值和对数似然测量,通常用于模型间的比较。
2025-04-13 01:00:00
1562
原创 R语言——分布和公式
例如,环境进程生成了大量符合对数正态分布的变量,我们可能希望把它们包含到一个 log(var) 的线性回归中。例如,runif能生成均匀分布的随机数,rnorm能生成正态分布的随机数。这些函数的第一个参数都是要生成的随机数的数量,其它参数则会影响分布的形状。对于可包括截距的模型(几乎都是回归模型),这样的公式隐式包含了截距。这增加了所有可能的双向交互、三方交互,一直到所有自变量之间都有交互。也就是说,它们是由某种算法生成,而不是真正的随机过程。其中每个ai是一个由该模型决定的阐述,而e是正态分布的误差项。
2025-04-12 01:00:00
744
原创 R语言——条形图
barplot的第一个参数包含条形的长度,如果这是一个命名向量,那么这些名称将用作条形图上的标签。默认情况,条形图都是垂直的,但如果类型比较多,通常使用水平条形图。类似base系统,ggplot2默认使用竖直的条形图,添加coord_flip可使它翻转为水平的条形图。las参数(即label axis style的缩写)控制标签是水平还是垂直的、是平行的还是垂直于轴的。此参数的另一种选项是position="fill",它所创建的每个堆积条都具有同样的高度,范围是0~100%。2、lattice方法。
2025-04-11 01:00:00
299
原创 R语言——箱线图
箱线图(boxplot)也被称为盒须图或盒形图,可以让我们一次比较多个分布。虽然我们不能得到像直方图或核密度图那么多细节,但简单的高低和宽窄之间的比较是没有问题的。在本例中,我们可以直接将boxplot替换为bwplot(bw是b(box)和w(whisker)的简称)在某种意义上,如果我们重新把箱线图从小到大排序,这种类型的绘图往往会更清晰。base系统中绘制箱线图的函数是boxplot,它需要一个公式接口且需要data参数。在ggplots2中绘制箱线图只需要我们添加一个geom_boxplot。
2025-04-10 01:00:00
420
原创 R语言——直方图
ggplot2直方图是通过添加一个直方图的geom来创建的。lattice中的直方图与base类似,不过它还使用了一个data参数,这个参数使它能更易于分割成多个面板,且能把绘图保存为变量。lattice中的直方图能通过type参数为"count"、"density"或"percent"指定y轴的显示类型:计数、概率密度和百分比,默认是百分比。在base中可以使用hist函数绘制直方图,与plot函数一样,它没有data参数,须把数据框置于with中。如果我们要研究一个连续变量的分布,直方图是最佳的选择。
2025-04-09 01:00:00
528
原创 R语言——线图
与散点图一样,lattice也使用xyplot来画线图,但同样也要使用type="l"的参数。对于只有两条线的场景,还有一个更好的解决方案,它不需要任何的数据操作。然而,这样需要调用geom_line两次,且在实际应用中相对较少。在base图形系统中,线图与散点图的创建方式一样使用plot函数,不同的是线图采用参数type="l"。为线图额外添加附加线,可以使用lines函数在现有绘图中重叠绘出。在ggplots中从散点图切换到线图非常简单,只要把geom_point替换为geom_line即可。
2025-04-08 01:00:00
373
原创 R语言——散点图
轴的尺度需要以不同的方式指定。col能改变点的颜色,它可以接受任何通过colors返回的已命名颜色,或者向"#123456"的HTML风格的十六进制值。log="x"表示使用x轴为对数坐标,log="y"表示使用y轴为对数坐标,而log="xy"则表示同时使用x和y轴作为对数坐标。ggplot2不仅能识别来自base图形系统的命令来改变点的颜色和形状,而且也有自己的一套更加可读的名称。lattice系统的另一个好处是它能把绘图存储在变量中(base只能把绘图绘制在窗口),因而可在之后更改它们。
2025-04-07 01:00:00
984
原创 R语言——统计汇总
cummin和cummax能分别累计计算向量中的最小值和最大值。同样的,cumsum和cumprod能计算数据中的累加和累乘。cor函数能够计算数值向量之间的相关性。table函数对于obama变量(或其他的数值型变量)来说意义不大,因为每个值都是唯一的。我们只能使用一种算法,且只能算出默认位数。var和sd分别计算方差和标准差。用于计算平均绝对偏差的是mad函数。则能计算相同长度的若干向量中在相同位置的最小值和最大值。函数只需一行函数就能给出最小和最大值。,它们分别给出输入的最小值和最大值。
2025-04-06 01:00:00
326
原创 R语言——数据整理3
例如,+运算符能计算两个数据字典的综合,但sum函数能计算多个输入的总和。sum(a,b,c,d,e)相当于Reduce("+",list(a,b,c,d,e))这种说法有点令人头晕,你需要了解的是:x[order(x)]将返回与sort(x)相同的结果。Negate函数是接受一个谓词(即一个返回逻辑向量的函数)并返回一个刚好相反的谓词。Reduce("+", list(a, b, c, d, e))相当于((((a + b) + c) + d) + e)Position函数的行为向which函数。
2025-04-05 01:00:00
269
原创 R语言——数据整理2
从另一个角度看,每一列中的头骨测量数据都是同一类型的东西(即测量值),只是测量的方式不同。因此,另一种表示该数据的方式是:每个鹿都有 4 行数据,每行有以下几列:一列是和之前一样颅骨的 ID(所以每个值将被重复四次),一列为测量值,还有一列用于解释本行所在的测量类型的因子。它的每一列包含了对某种类型的鹿的测量结果。在 plyr 包中的mutate函数采取了另一种方法,它接受新的和更改的列,并把它们当成“名称 - 值” 对。我们还可是使用na.omit函数,它能删除数据框中的所有带有缺失值的行。
2025-04-04 01:00:00
344
原创 R语言——数据整理1
在alpe_d_huez循环数据集中,DrugUse列中的数值被编码为“Y”和“N”,而不是TRUE和FALSE。grep、grepl和regexpr函数都能够找到与模式相匹配的字符串,sub和gsub函数能够替换匹配的字符串。在下例中,我们将匹配一“m”开头的(^)、后面跟着一个可选的(?我们可以用str_count计算出它们在每个名称中的出现次数,然后用sum来对所有统治者求和计算出总的出现次数。如果想把name列进行拆分,可以使用str_split(或用R基本报中的strsplit,作用基本一样)
2025-04-03 01:00:00
373
seaborn常用数据案例
2024-04-21
python-活用pandas库数据集
2024-04-15
R语言+统计分析+源数据
2024-04-04
excel统计分析相关文件
2024-03-30
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人