Mrrunsen
这个作者很懒,什么都没留下…
展开
-
1. 請根據 bwght2.dta 資料檔,找出一用以解釋嬰兒出生時體重的樣本回歸模型:
bwght =β0+β1 npvis +β2 npviss q+β3 cigs +β4 male +β5 cigs ∗ male +u\text { bwght }=\beta_{0}+\beta_{1} \text { npvis }+\beta_{2} \text { npviss } q+\beta_{3} \text { cigs }+\beta_{4} \text { male }+\beta_{5} \text { cigs } * \text { male }+u bwght =β0+β原创 2024-02-19 19:21:31 · 401 阅读 · 0 评论 -
R语言绘图—南丁格尔玫瑰图
南丁格尔玫瑰图是一种条形图的变形图,也被称为极坐标柱形图,普通的柱形图的坐标系是直角坐标系。该图形使用圆弧的半径长短来表示数据的大小,适合较多类别数据的比较。最近在撰写年度工作总结中使用了一部分,在此将代码分享,有需要者可复制使用!我们为图形添加发病数,最简单的就是通过geom_text函数实现。原创 2024-01-10 08:38:02 · 1051 阅读 · 0 评论 -
R语言 国家转换为大洲
列中的国家名称转换为对应的大洲,并将结果存储在。函数将国家转换为大洲。列包含了一些国家名称,原创 2023-11-28 22:02:59 · 905 阅读 · 0 评论 -
R包 PCT
然而,托管在那里的代码不容易运行或复制,这就是这个包的用武之地:它提供了对 PCT 基础数据的快速访问,并使一些关键结果能够快速复制。它的开发主要是为了教育目的(包括即将到来的 PCT 培训课程),但它可能对人们在这些方法的基础上进行开发有用,例如在他们的城镇/城市/地区创建一个骑自行车的场景。本文主要介绍R包 PCT , 其目标是提高 Propensity to Cycle Too (PCT) 生成的数据的可访问性和可重复性,托管在 www.pct.bike 上。原创 2023-11-03 19:42:35 · 194 阅读 · 0 评论 -
编写一个R函数来执行矩阵补全,在波士顿数据上测试
在波士顿数据上测试的函数。首先,使用scale()函数标准化特征,使其均值为零,标准差为一。运行一个实验,在其中您随机遗漏从5%到30%的观测值,步长为5%。使用M = 1,2,…,8应用算法12.1。显示近似误差作为遗漏观测值的比例,以及M的值,重复实验10次后取平均值。原创 2023-10-30 07:17:03 · 263 阅读 · 0 评论 -
上机任务二: 作业要求:以薪资为因变量,其他指标为解释变量,建立模型,研究影响工商管理专业毕业生薪资的因素。
8、使用plot(模型,which=c(1:4))进行模型诊断,并解释,如果cook距离判断有异常点,可删去异常点重新拟合线性模型;作业要求:以薪资为因变量,其他指标为解释变量,建立模型,研究影响工商管理专业毕业生薪资的因素。4、建立单因素方差分析模型,检验工作经验对薪资是否有显著影响,如果有,再进一步做多重比较。如果工作经验与最低学历的交互作用显著,后面建立的全模型中考虑两者的交互效应,否则,不考虑。5、尝试考虑工作经验与最低学历的交互作用,建立双因素方差分析模型,并分析结果。原创 2023-10-30 07:15:10 · 455 阅读 · 0 评论 -
上机任务一:空气质量指数 (air quality index,AQI是定量描述空气质量状况的指数。为了更好地了解和人们身体健康息息相关的天气状况,本书模拟生成500条某地区天气数据,一行样本对应一天
调整后的R平方为0.4308,考虑了模型中的自由度,它略低于多重R平方,说明模型的解释能力可能有限。总的来说,新的模型相对于之前的模型在AIC值上更优,包含了最高温度(X2)和最低温度(X3)这两个重要的预测因子,并且对AQI的解释能力较好。在表中,Df表示自由度,Sum Sq表示总平方和,Mean Sq表示均方(总平方和除以自由度),F value表示F统计量,Pr(>F)表示对应的p值。在分析这些结果时,需要关注系数的显著性(p值),系数的方向(正向或负向影响),以及系数的大小(估计值)。原创 2023-10-30 07:08:22 · 470 阅读 · 0 评论 -
R语言 使用CNN进行手写数字识别
model。原创 2023-10-29 22:52:18 · 231 阅读 · 0 评论 -
DentMax数据集聚类分析
在进行聚类之前,我们需要对数据进行标准化。这包括计算每个变量的均值和标准差,然后将数据缩放。为了确定最佳聚类数,我们可以使用肘部法则来选择K值。最后,我们可以将聚类结果以及每个簇的平均值保存到CSV文件中。首先,我们需要安装并导入所需的R包,以便进行数据分析。根据肘部法则的结果,可以看到最佳聚类数为4。接下来,我们将从Excel文件中导入数据。可以绘制聚类结果的树状图以及数据点的分布。使用确定的最佳聚类数,执行K均值聚类。然后,使用肘部法则来确定最佳聚类数。原创 2023-10-29 22:31:48 · 107 阅读 · 0 评论 -
使用鸢尾花数据集,用ROC曲线比较fisher判别法,距离判别发,Bayes判别法的效果 R语言
运行以上代码后,你将会得到一个包含Fisher判别法、距离判别法和Bayes判别法的ROC曲线比较图。通过比较曲线下面积(AUC),你可以评估这些算法的分类性能。在R语言中,我们可以使用鸢尾花数据集来比较Fisher判别法、距离判别法和Bayes判别法的效果。接下来,我们可以使用这些算法来进行分类,并绘制ROC曲线来比较它们的效果。原创 2023-10-26 07:37:42 · 636 阅读 · 0 评论 -
R 语言 正态分布法、Weibull分布法和历史模拟法
正态分布法、Weibull分布法和历史模拟法都是用于风险评估和投资组合分析的方法。它们在模拟资产或投资组合的未来表现方面有不同的应用。正态分布法基于正态分布(或高於分布)来模拟资产或投资组合的未来表现。Weibull分布法与正态分布法不同,它使用Weibull分布来模拟资产或投资组合的未来表现。Weibull分布通常用于描述极端事件的分布。它假设未来的收益率分布将类似于过去的分布,因此不需要额外的分布假设。这些方法在不同的情况下都有其用途,具体选择哪种方法取决于你对投资组合或资产未来表现的假设和需求。原创 2023-10-22 17:35:33 · 270 阅读 · 0 评论 -
要使用R语言计算万科A(000002.SZ)在下一交易日,有95%的概率,收盘价对数收益率不低于多少,可以考虑使用不同的方法:正态分布法、Weibull分布法和历史模拟法。
要使用R语言计算万科A(000002.SZ)在下一交易日,有95%的概率,收盘价对数收益率不低于多少,可以考虑使用不同的方法:正态分布法、Weibull分布法和历史模拟法。这些方法都是基于不同的统计分布或模拟方法来估计下一交易日的对数收益率下限,以达到95%的概率。原创 2023-10-22 17:32:56 · 497 阅读 · 0 评论 -
( 100分 ) 简化图形类型代码
【代码】( 100分 ) 简化图形类型代码。原创 2023-10-22 17:29:56 · 229 阅读 · 0 评论 -
假想某只债券在上海证券交易所交易,其面值为100元,票面利率为4%,每半年支付一次利息,2025年4月11日到期。,并假设在该期间债券的收益率维持在3%的水平不变。
假想某只债券在上海证券交易所交易,其面值为100元,票面利率为4%,每半年支付一次利息,2025年4月11日到期。,并假设在该期间债券的收益率维持在3%的水平不变。(1)编写函数计算该债券于2019年11月13日至2022年11月13日期间每天的净价、全价和应计利息的变化,并以数据框的形式给出。(2)并用ggplot2画出债券价、全价和应计利息的变化。原创 2023-10-22 17:28:43 · 433 阅读 · 0 评论 -
使用R创建基于基因网络的可视化
这个教程将向您展示如何使用R中的igraphggraphtidyverse和ggnewscale库创建一个基于基因网络的可视化。您将学会如何导入数据、处理数据、创建图形以及添加自定义样式和标签,以便更好地理解基因之间的相互作用关系和差异表达情况。原创 2023-10-22 15:12:50 · 238 阅读 · 0 评论 -
使用ggtree创建基于生物进化树的可视化
ggtree是一个强大的R包,用于可视化生物进化树和相关数据。本教程将向您展示如何使用ggtree创建一个基于生物进化树的可视化,以及如何添加其他数据来增强可视化。原创 2023-10-22 15:05:20 · 468 阅读 · 0 评论 -
使用ComplexHeatmap库创建热图
ComplexHeatmap库是一个用于创建复杂热图的R包,可以用于可视化多维数据。创建自定义的顶部注释以显示额外信息。在示例中,我们创建了一个包含多个信息的注释。原创 2023-10-22 14:56:03 · 122 阅读 · 0 评论 -
R 语言 基于标签的推荐算法 实现
基于标签的推荐算法是一种推荐系统方法,它基于用户与物品之间的标签信息来进行推荐。原创 2023-10-22 14:50:47 · 131 阅读 · 0 评论 -
R语言 基于用户的推荐算法 的源码实现
UserCF:推荐那些和他有共同兴趣爱好的用户喜欢的物品。当系统进入正式运行阶段的时候就有不同类型的数据。原创 2023-10-22 14:46:53 · 115 阅读 · 0 评论 -
R 语言源码实现 基于物品的矩阵协同过滤算法
请注意,这只是一个基本示例,用于说明 Item-Based Collaborative Filtering 算法的主要步骤。在实际应用中,你可能需要更多的数据预处理和参数调整来改进推荐性能,还需要考虑性能优化和其他改进。你的提供的代码实现了基于物品的矩阵协同过滤算法(Item-Based Collaborative Filtering)的关键步骤。原创 2023-10-22 14:45:35 · 90 阅读 · 0 评论 -
MySQL经典50题tidyverse版.
上述做法代码不复杂(去掉中间变量把管道接一起),但是很抽象难以理解。受**“偏居一隅”**启发,与其放一起作为集合比较集合相等,何不拼接为一个字符串,比较字符串?本题可以说所有题目中最难的一道,虽然很啰嗦但穿插讲解到很多语法,还是很有意义的。注: 及格:>=60,中等为:70-80,优良为:80-90,优秀为:>=90。课程编号,课程名称,最高分,最低分,平均分,及格率,中等率,优良率,优秀率;根据多列值构造筛选条件:所有成绩都大于70分,正常是用。左连接,将学生信息合并进来,再选择想要的列。原创 2023-10-22 14:35:26 · 80 阅读 · 0 评论 -
R语言 Apriori挖掘关联规则的频繁项集算法
P(B|A),在A发生的事件中同时发生B的概率 p(AB)/P(A) 例如购物篮分析:牛奶 ⇒ 面包。③如果事件A中包含k个元素,那么称这个事件A为k项集事件A满足最小支持度阈值的事件称为频繁k项集。④同时满足最小支持度阈值和最小置信度阈值的规则称为强规则。置信度40%:意味着购买牛奶的顾客40%也购买面包。①支持度:P(A ∩ B),既有A又有B的概率。支持度3%:意味着3%顾客同时购买牛奶和面包。例子:[支持度:3%,置信度:40%]2.依据置信度产生关联规则(强度)频繁项集的子集也是频繁的。原创 2023-10-22 14:23:48 · 200 阅读 · 0 评论 -
R语言多因素方差分析 Sum Sq Mean Sq 手算
上述代码将手动计算总平方和(SST)、组间平方和(SSB)、组内平方和(SSW)、总自由度(DFT)、组间自由度(DFB)、组内自由度(DFW)、均方组(MSB)、均方组内(MSW)、F值(F),并使用F分布表计算P值。当你手动计算方差分析表中的各项值时,可以使用R来执行这些计算,但需要逐步输入相应的计算式。将输出多因素方差分析的结果,包括F值、P值以及每个因素和交互作用的显著性水平。,它包含了鸢尾花不同品种的测量数据,可以用于多因素方差分析的示例。(花萼宽度)作为两个因素,同时考虑它们的交互作用。原创 2023-10-18 08:35:26 · 458 阅读 · 0 评论 -
R语言如何计算线性回归的系数而不使用lm函数
函数来实现线性回归模型。一个常见的方法是使用矩阵运算和公式来计算这些系数。以下是一个示例,展示了如何使用这种方法来进行线性回归。在R语言中,您可以通过计算线性回归的系数(斜率和截距)而不使用。,其中第一列包含全为1的常数项,第二列包含自变量。您可以将这些值用于线性回归方程,例如。函数来求解线性方程组,从中提取了截距和斜率。上述代码中,我们首先创建了一个设计矩阵。假设您有一组观测数据,包括自变量。,您想拟合一个线性回归模型。原创 2023-10-12 07:22:34 · 340 阅读 · 0 评论 -
如何手动计算单边t检验的t值和p值
单边t检验与双边t检验类似,但它只关注一边的分布。单边t检验通常用于测试一个方向的假设,即你想确定一个组的均值是大于或小于另一个组的均值。在这个例子中,我们计算了单边t检验的右尾p值。如果p值小于显著性水平(通常为0.05),则可以拒绝零假设,表明组A的均值大于组B的均值。如果你想执行左尾单边t检验,只需在计算p值时使用。假设你仍然有两组数据,分别是组A和组B。你想要检验组A的均值是否大于组B的均值。原创 2023-10-12 07:18:56 · 1060 阅读 · 0 评论 -
如何手动计算t检验统计量和p值
手动计算t检验统计量和p值需要执行一系列统计步骤。首先,你需要明确你的研究问题和数据,以及t检验的类型(单样本t检验、双样本独立样本t检验、双样本配对样本t检验)。这里我将为你演示一个双样本独立样本t检验的例子,并使用R语言来计算。这里,我们使用双样本独立样本t检验,计算了t统计量和p值。如果p值小于显著性水平(通常为0.05),则可以拒绝零假设,表明两组数据的均值存在显著差异。假设你有两组数据,分别是组A和组B,你想要比较它们的均值是否有显著差异。原创 2023-10-12 07:18:09 · 2228 阅读 · 1 评论 -
如何手动计算卡方检验统计量和p值
首先,您需要创建一个观察频率表(observed frequency table),该表包含您的观察数据,以及一个期望频率表(expected frequency table),根据假设的独立性来计算。卡方检验的p值表示观察到的数据在假设的独立性下的概率。您可以使用卡方分布的累积分布函数(CDF)来计算p值。卡方分布的自由度等于 ((行数 - 1) \times (列数 - 1))。这将输出卡方检验统计量和p值的结果。原创 2023-10-08 22:02:40 · 863 阅读 · 0 评论 -
基因表达差异的箱线图*
这部分代码首先设置了随机数种子,然后生成一个4x120的随机矩阵,其中每个元素来自于正态分布,并进行了舍入。这一部分将数据从矩阵转换为数据框,并添加了一列“group”,以表示每个样本所属的组别。这一部分使用rstatix包进行统计分析,计算基因在不同组别之间的差异,并添加显著性标记。函数将数据从宽格式转换为长格式,使每个基因的表达值都在一列中,并将列名命名为“gene”,表达值命名为“value”。这一部分使用ggplot2库创建箱线图,其中x轴表示基因,y轴表示表达值,不同组别的数据用不同颜色表示。原创 2023-10-05 14:26:19 · 470 阅读 · 0 评论 -
seqinr写入序列数据
读取后,我们提取了序列数据的名称和内容,并将其存储在sequence_names和sequence_content变量中。在这个示例中,我们将第一个序列的内容作为输入,并将结果存储在gc_content变量中。通过这个示例,你可以在R中使用seqinr包来读取序列数据、提取序列名称和内容,并计算序列的碱基组成和GC含量。这对于理解序列的特征和属性非常重要,因为不同的碱基组成可以提供有关序列的生物学信息。seqinr是一个在R语言中使用的生物信息学包,它提供了一套功能强大的工具,用于处理和分析生物序列数据。原创 2023-09-26 08:21:36 · 229 阅读 · 0 评论 -
R语言包Gviz
Gviz是R语言生物信息学领域中的一个重要包,其全名为"Genomic Visualization"。它的主要特点之一是其丰富的绘图功能。该包提供了多种类型的绘图,包括基因结构、染色质互作、信号路径、基因表达等。此外,Gviz还支持多种数据源的集成,包括基因组坐标、注释、变异数据等,这使得用户可以将多种数据层叠在同一个图中,进一步深化数据的解读。假设我们有一个基因的表达数据,我们可以从生物信息学数据库(如GTEx)中获得。我们将使用这个数据来展示基因在不同组织中的表达水平,并利用Gviz创建几个图表。原创 2023-09-25 23:01:27 · 240 阅读 · 0 评论 -
SEM结构方程R语言实现
相对于相关、回归分析、路径分析等研究变量间关系的统计方法来说SEM从两个方面完善了这些常用方法的不足。除此之外最重要的是它不需 要假定所有特定变量的误差无相关而是指定那些两者之间存在相关的特定性变量误差。第二在考虑测 量误差的前提下建立变量间的因果关系。这样研究便 能在探讨变量间直接影响、间接影响和总效应以及表 达中介变量作用的同时用潜在变量代替路径分析中的单一外显变量并考虑变量的测量误差从而使研究 结果更精确。在传统的方法中,一般一个变量依附于单一的因子,但是在SEM中,某一个变量可以依附于多个因变量;原创 2023-09-25 22:49:56 · 125 阅读 · 0 评论 -
R语言包nlme快速建立线性混合效应模型
现在,我们使用nlme包来拟合一个线性混合效应模型,将体重作为响应变量,时间作为固定效应,个体ID作为随机效应。在这个模型中,"体重"是响应变量,"时间"是固定效应,"个体ID"是随机效应。通过将个体ID作为随机效应,我们考虑了个体之间的随机变异,同时利用时间作为固定效应,来考虑不同时间点对体重的影响。这里使用一个虚构的示例,假设我们有一个名为"biological_data"的数据框,其中包含三列:"个体ID"表示不同个体的标识,"时间"表示测量的时间点,"体重"表示对应时间点下的体重数值。原创 2023-09-24 14:28:41 · 969 阅读 · 0 评论 -
某试卷共有5题,每题20分。为简单起见,假定每一题得分要么是0要么是20.出题老师心目中学生分为ABC三类,其中AC两类大约占15%,A类学生答对各题的可能性大约是0.9,0.8,0.8,0.8.0.
请模拟10000名考生的答题结果,然后用得到的样本计算 A.BC三类学生以及总体的成绩分布。用随机模拟验证下列结果:设 U,Ue 是服从 U(0,1)的随机变量,而且相互独立,则X=v-2lnUcos(2U2),X=√-2inUsin(2U)相互独立并且服从分布 N(0.1)用随机模拟验证下列结果:如果XY。用来自指数分布的样本近似计算 r(x)=tx-e-tdt.把体积当作积分,用Monte Carlo 方法近似计算R”中半径为1的球体体积。注意与精确值 /T(+1)进行比较。Pois()则X~xx。原创 2023-09-24 12:42:02 · 121 阅读 · 0 评论 -
分组数据: 数据框 nlme::Cefamandole
用dotplot 和 barplot 为这个分类表作图,要求有图例。分组变量(列变量)以 subject 为宜,这有利于考察 conc随时间 Time的变化规律。这是一个数据框,变量:conc(药物浓度),Subiect(受试者),Time(给药后的测量时刻点),后面两个是因子,第一个是数值变量。函数 sapply: 画各组数据的散点图,要有利于观测数据随时间的变化趋势,·函数 sapply:上面的散点图叠加非参数回归曲线和回归直线。·函数sapply或vapply:求各组数据五点综述统计量。原创 2023-09-24 12:41:17 · 76 阅读 · 0 评论 -
原理:只要 N 足够大, 可以任意接近精确值 e*基于上面的想法,设计一个近似计算 e’的R函数:
要使函数适用于任何xeR就不能取固定值,而应在计算过程中动态确定:最后一项对和式贡献很小。粗估计:利用公式n!~V2n(n/e)n可知N>ex,故可以先计算前面3x 项。·精估计:考虑新的项与上一步的部分和的比值(相对精度),应当使其绝对值足够小。原创 2023-09-24 12:40:18 · 79 阅读 · 0 评论 -
编程计算 In(1 +x)=-D-x),x e(01),采用下面两个不同的算法: 。对于n=1,2,...,N,计算-2(-x).。对于n=1,2....,N,计算CR-1(1-x)k-0.5x<2k
N,计算-2(-x).。,N,计算CR-1(1-x)k-0.5x原创 2023-09-25 22:39:57 · 64 阅读 · 0 评论 -
编程计算 In(1 +x)=-D-x),x e(01),采用下面两个不同的算法: 。对于n=1,2,...,N,计算-2(-x).。对于n=1,2....,N,计算CR-1(1-x)k-0.5x<2k
N,计算-2(-x).。,N,计算CR-1(1-x)k-0.5x原创 2023-09-28 00:45:00 · 62 阅读 · 0 评论 -
设计 R函数计算定积分 [f(x)dx 的近似值,其中 a< b并且是有限数,算法如下: ·用特殊 Riemann和hCk=if(a+ kh -0.5h),其中h=j(b-a).
用复合 Newton-Cotes 公式:N等分区间ab,每个小区间上的积分用n-1个内部分点的 Newton-Cotes 公式,n=1,2,3,4,5,6.用Romberg 迭代算法。·用特殊 Riemann和hCk=if(a+ kh -0.5h),其中h=j(b-a).可以考虑每次迭代小区间个数翻倍。用参数FUN提供被积函数 f.原创 2023-09-30 07:45:00 · 137 阅读 · 0 评论 -
polygon(x,y=NULL,density=NULL,angle=45border = NULL,col = NA, lty,..., fillOddEven = F)
需要将多个函数一起使用时,可以通过在同一个绘图设备上叠加它们来创建复杂的图形。expr:函数名或函数表达式,xname 是它的自变量add=TRUE:该函数图像叠加在现有的绘图窗口。最后,我们添加了一个图例以标识每个图形的含义。在这个示例中,我们首先创建一个新的绘图设备,并在其中绘制函数曲线、多边形和点。filloddEven=E:有边界线环绕的区域则填充,T边O界线环绕奇数次则填充。density阴影线的密度,angle 阴影线的夹角。画函数图像:x必须是函数名,不能叠加到现有图形。原创 2023-09-19 22:16:10 · 99 阅读 · 0 评论 -
R函数 t.test 计算单样本和两样本t检验,返回检验 p值和相关参数的置信区间。 ·对于来自N(u,1)的样本,检验假设u=0.实验中分别取真值u=0,非常接近0,与0相差较大。如何计算u=0.
R函数 t.test 计算单样本和两样本t检验,返回检验 p值和相关参数的置信区间。·对于来自N(u,1)的样本,检验假设u=0.实验中分别取真值u=0,非常接近0,与0相差较大。如何计算u=0.1处的检验功效或势(power)?需要多大的样本量方可使此值不小于 0.7.。通过重复实验,证明 t检验对于正态数据是精确的。原创 2023-09-19 22:13:47 · 254 阅读 · 0 评论