自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(1710)
  • 资源 (149)
  • 收藏
  • 关注

原创 rstanarm中的stan_glmer

stan_glmer函数是rstanarm包提供的,用于拟合贝叶斯广义线性混合效应模型(GLMM)。这类模型非常适用于处理具有层次结构或分组结构的数据,例如,数据中的观察值可能是分层的(如学生嵌套在学校中)、重复测量的(如同一对象在不同时间点的测量)或有其他类型的非独立结构。stan_glmer。

2024-03-29 08:35:39 67

原创 生存分析R代码大全

因为无法在短时间内评价慢性病患者的预后,所以通常情况下不会简单地采用治愈率、病死率等指标,而是对患者进行随访,分析一定的时间之后患者生存或死亡的情况,这种将事件的结果和出现这一结果所经历的时间结合起来分析的方法,称为生存分析 (Survival Analysis)。下面,对生存分析中常用到的代码进行了汇总,参考的文章已经附上链接,可以直接回溯到原文。如何进行生存数据的收集和整理,有不少人存在疑惑,下面这张图给出了非常清晰明了的说明。#四、基线特征描述统计。#七、cox回归模型。#八、连续变量截断值。

2024-03-27 08:29:00 123

原创 解决R语言ggplot2包输出带中文字体的矢量图时的乱码问题

这种情况下的字体样式未做更改,因此原图中的字体显示风格不会变,但由于文字被转为图形了,无法再通过pdf编辑工具(例如AI、福昕阅读器等)进行文字编辑。不过由于字体样式更改了,原图中的字体显示风格也会变,但好在文字可以被pdf编辑工具识别(),后续在这些工具中统一调整即可。众所周知,使用R语言ggplot2包绘图时,如果图中存在中文字体的情况,输出pdf矢量图时会乱码,如下所示的这样。另一种方法是将图中中文字体轮廓化为图形后再输出为矢量图,这样就不受字体库的影响了。

2024-03-25 08:37:53 191

原创 R语言画图 | 分组折线图

简单整理 ggplot2 绘制分组折线图的方法,方便以后使用。

2024-03-01 08:25:17 138

原创 考试 冬小麦不同水分条件下的产量试验进行了不同水分处理,为完全随机设计,试进行方差分析(wh.csv)。 (1)是否满足方差分析的前提假设?(提示:正态检验用shapiro.test,方差齐性检验

(3)分别分析不同因变量(NEE、RECO和GPP)与Ta、VPD、Pa、Ws、Rn、CO2、SWC、ET的多重非线性检验,在此基础上,采用逐步回归和AIC法进行多元线性回归分析,并解释结果(15分)(4)NEE与Ta、VPD、Pa、Ws、Rn、CO2、SWC、ET进行通径分析,并列出通径分析表格或者画出通径分析图(R语言中的agricolae包)(15分)方差分析结果表明,在不同水分处理下的产量存在显著差异(ANOVA, F = 55, p < 0.001),这意味着水分条件对产量有着显著影响。

2024-02-26 07:35:52 45

原创 1. 請根據 bwght2.dta 資料檔,找出一用以解釋嬰兒出生時體重的樣本回歸模型:

bwght =β0+β1 npvis +β2 npviss q+β3 cigs +β4 male +β5 cigs ∗ male +u\text { bwght }=\beta_{0}+\beta_{1} \text { npvis }+\beta_{2} \text { npviss } q+\beta_{3} \text { cigs }+\beta_{4} \text { male }+\beta_{5} \text { cigs } * \text { male }+u bwght =β0​+β

2024-02-19 19:21:31 123

原创 在使用R语言环境中如何进行正态性检验的保姆级教程

在这个例子中,我们使用了airway数据集中的gene列作为基因表达值,然后执行了Shapiro-Wilk正态性检验,查看基因表达值是否满足正态分布。在使用Shapiro-Wilk检验时,如果p-value小于设定的显著性水平(通常为0.05),我们会拒绝原假设,即认为数据不是来自正态分布。在正态性检验中,我们会使用Kolmogorov-Smirnov检验来比较样本的累积分布函数(CDF)与理论正态分布的CDF之间的差异。因此,对生物学数据进行正态性检验是必要的,以确保所应用的统计方法的准确性和可靠性。

2024-02-17 08:09:07 355

原创 R语言 QQ图 判断数据分布类型

在QQ图中,我们将待检验的数据按照从小到大的顺序排列,并计算出每个数据所在的分位数。然后,我们将这些分位数与理论分布的分位数进行比较,绘制得到一个散点图。如果数据近似服从理论分布,那么散点图中的数据点应当大致沿着一条直线分布。而如果数据不服从理论分布,那么散点图中的数据点会明显偏离直线。QQ图(Quantile-Quantile Plot)是一种可视化工具,用于检验数据是否服从某个理论分布。该图通常用于检验数据的正态性,也可以用于检验其他分布的偏离情况。

2024-02-17 07:08:18 115

原创 江汉大学2022 —— 2023 学年第1 学期试卷

3.(12分)财政数据.csv中是从1994年到2013年的财政数据,其中财政收入(y),社会从业人数(x1),在岗职工工资总额(x2),社会消费品零售总额(x3),城镇居民人均可支配收入(x4),城镇居民人均消费性支出(x5),年末总人口(x6),全社会固定资产投资额(x7),地区生产总值(x8),第一产业产值(x9),税收(x10),居民消费价格指数(x11);假设两稻种产量X,Y均服从正态分布,且方差相等。4)在gm11代码中修改原始值和预测值曲线的样式(点,线,颜色,线的样式,点的样式等等);

2024-02-16 21:45:03 39

原创 浙江越秀外国语学院2023-2024学年第一学期期末考试 《R语言与数据分析》试卷

根据检验结果,t 值为441.86,自由度为4644,p 值小于2.2e-16,这表明在显著性水平为0.05的情况下,英语笔试成绩的平均值与0存在显著性差异。根据观察,我注意到在分析我们学校的成绩数据时,听力和作文分数的直方图呈现出一种类似正态分布的形状,具有较为对称的特征,即数据点相对集中在中心并向两侧逐渐减少,呈现出典型的钟形曲线。比如,观察异常值对应的学生的其他信息,如是否有缺考或违纪记录,了解他们的考试情况是否与其他学生明显不同。6.筛选出国际商学院学生的英语成绩,并求出0%,10%,20%,…

2024-01-14 14:18:00 68

原创 R语言绘图—南丁格尔玫瑰图

南丁格尔玫瑰图是一种条形图的变形图,也被称为极坐标柱形图,普通的柱形图的坐标系是直角坐标系。该图形使用圆弧的半径长短来表示数据的大小,适合较多类别数据的比较。最近在撰写年度工作总结中使用了一部分,在此将代码分享,有需要者可复制使用!我们为图形添加发病数,最简单的就是通过geom_text函数实现。

2024-01-10 08:38:02 461

原创 R 语言绘制 南丁格尔玫瑰图

是你的数据集,包含类别和频率列。你可以根据自己的数据调整代码以适应你的需求。南丁格尔玫瑰图(也称为极坐标条形图)可以使用R语言的。这段代码将创建一个简单的南丁格尔玫瑰图,其中。首先,确保你已经安装了。

2024-01-10 08:33:53 529

原创 用R语言分析股票数据:获取、可视化和比较收益率

当涉及分析金融数据时,R语言提供了一些功能强大的库,比如quantmod和ggplot2,可以帮助你获取、可视化和分析股票价格数据。下面是一个简单的教程,展示了如何使用这些库来获取股票数据并进行可视化分析。

2023-12-24 14:15:11 609

原创 XX学校作业内容要求 1:计算单只公司股票的均值、方差、峰度、偏度,并完成正态分布检验;

要求4:对全样本收益率中剔除最高1%与最低1%的回报率,进而依据 for 循环找出年度方差最大与最小的股票。并用注释的方式在RScript 中依据公司的经营分析情况等解释为什么该公司股票的方差最大,为什么该公司的方差最小。要求 1:计算单只公司股票的均值、方差、峰度、偏度,并完成正态分布检验;要求3:计算两只公司股票的均值差、方差比,在95%置信水平下的置信区间;接下来,我们将按年度计算股票的方差,并找出年度方差最大和最小的股票。现在我们有了剔除了最高1%和最低1%的回报率的数据集。

2023-12-24 09:52:02 426

原创 1. 为调查甲乙两家银行的户均存款数,从两家银行中各自抽取一个由36个存户组成的随机样本进行研究。其中两个样本的均值分别为4800和3500元。两个总体的标准差分别为980元和960元。根据经验,这两

计算题为调查甲乙两家银行的户均存款数,从两家银行中各自抽取一个由36个存户组成的随机样本进行研究。其中两个样本的均值分别为4800和3500元。两个总体的标准差分别为980元和960元。根据经验,这两个总体服从正态分布,请问这两个银行平均存款数差值的置信度90%()的置信区间为多少?某广告公司进行一项中央空调用户特点的调查。从装有中央空调的家庭中随机抽取200户,其中年人均生活消费超过20000元的有110户。从没有装中央空调的家庭中随机抽取100户,其中年人均生活消费超过20000元的有25户。

2023-12-24 09:49:43 820

原创 1. 随机变量服从以下分布,通过逆变换法生成10000个随机变量,给出R代码并分析生成的随机变量,

根据卡方检验的结果,观测到的卡方值为13.132,自由度为2,对应的p值为0.001408。模拟法计算得到的p值为0.0013。在显著性水平为α=0.05的情况下,观测到的p值小于0.05,因此拒绝原假设。这意味着观测到的大麦芒性比例与遗传学理论所预期的比例不一致,存在显著性差异。产生以上截断的二元正态分布的边际分布的随机数,并进行描述性统计分析。令G=10000,试求Var(S2) 的Bootstrap估计。

2023-12-24 09:43:57 758

原创 文件““Smarket.sv”为2001 2005年S8P 500指数的日交易情况,其中,laa1.laa2.a3.a4.laa5为对于交日当天相对前5连续交易日中每易日的涨跌数额、Volume为前一

文件“"Smarket.sv”为2001 2005年S8P 500指数的日交易情况,其中,laa1.laa2.a3.a4.laa5为对于交日当天相对前5连续交易日中每易日的涨跌数额、Volume为前一交易日的交易量、Today为交易日当天的涨跌数额、Direction为交易日当天的“涨”或“跌情。增加模型的弹性可能会提高模型在训练集上的拟合程度,但有时会导致过度拟合,降低在测试集上的表现。因此,在调整模型弹性时,需要进行适当的验证和评估,以确保模型能够在未见过的数据上取得良好的泛化能力。

2023-12-14 07:51:53 827

原创 Rmd 导出 pdf最好的方法

来安装 TinyTeX,这是一个轻量级的 LaTeX 发行版,专门用于 R 环境。这可能是一个更简便的选择,特别是如果你只需要基本的 LaTeX 功能来创建 PDF 输出。就可以导出pdf了,不用安装什么tex。

2023-12-09 15:21:18 668

原创 处理均值的配对⽐较⽅法有 Tukey 检验法和 Fisher 最⼩显著性差异(LSD)法。请详细说明什么是 Fisher LSD ⽅法。解释 Fisher 和 Tukey 方法之间的差别。完成下面的问

在这个案例中,LSD 检验结果表明企业 1 和企业 2 之间的均值存在显著差异(p = 0.0134),而企业 2 和企业 3 之间也存在显著差异(p = 0.0265)。这意味着在这次实验中,所观察到的均值差异很可能是由随机因素引起的,而不是由于不同企业生产的电池寿命确实存在显著差异。Fisher 最小显著性差异(LSD)方法和 Tukey 检验方法都是用于处理多组均值比较的统计方法。这表明,即使在整体方差分析中未观察到显著性差异,LSD 方法可以识别出少数企业之间存在的具有统计学意义的差异。

2023-12-05 08:24:56 1300

原创 R语言 国家转换为大洲

列中的国家名称转换为对应的大洲,并将结果存储在。函数将国家转换为大洲。列包含了一些国家名称,

2023-12-05 08:23:12 391

原创 R语言 国家转换为大洲

列中的国家名称转换为对应的大洲,并将结果存储在。函数将国家转换为大洲。列包含了一些国家名称,

2023-11-28 22:02:59 490

原创 R包 PCT

然而,托管在那里的代码不容易运行或复制,这就是这个包的用武之地:它提供了对 PCT 基础数据的快速访问,并使一些关键结果能够快速复制。它的开发主要是为了教育目的(包括即将到来的 PCT 培训课程),但它可能对人们在这些方法的基础上进行开发有用,例如在他们的城镇/城市/地区创建一个骑自行车的场景。本文主要介绍R包 PCT , 其目标是提高 Propensity to Cycle Too (PCT) 生成的数据的可访问性和可重复性,托管在 www.pct.bike 上。

2023-11-03 19:42:35 111

原创 编写一个R函数来执行矩阵补全,在波士顿数据上测试

在波士顿数据上测试的函数。首先,使用scale()函数标准化特征,使其均值为零,标准差为一。运行一个实验,在其中您随机遗漏从5%到30%的观测值,步长为5%。使用M = 1,2,…,8应用算法12.1。显示近似误差作为遗漏观测值的比例,以及M的值,重复实验10次后取平均值。

2023-10-30 07:17:03 124

原创 上机任务二: 作业要求:以薪资为因变量,其他指标为解释变量,建立模型,研究影响工商管理专业毕业生薪资的因素。

8、使用plot(模型,which=c(1:4))进行模型诊断,并解释,如果cook距离判断有异常点,可删去异常点重新拟合线性模型;作业要求:以薪资为因变量,其他指标为解释变量,建立模型,研究影响工商管理专业毕业生薪资的因素。4、建立单因素方差分析模型,检验工作经验对薪资是否有显著影响,如果有,再进一步做多重比较。如果工作经验与最低学历的交互作用显著,后面建立的全模型中考虑两者的交互效应,否则,不考虑。5、尝试考虑工作经验与最低学历的交互作用,建立双因素方差分析模型,并分析结果。

2023-10-30 07:15:10 272

原创 上机任务一:空气质量指数 (air quality index,AQI是定量描述空气质量状况的指数。为了更好地了解和人们身体健康息息相关的天气状况,本书模拟生成500条某地区天气数据,一行样本对应一天

调整后的R平方为0.4308,考虑了模型中的自由度,它略低于多重R平方,说明模型的解释能力可能有限。总的来说,新的模型相对于之前的模型在AIC值上更优,包含了最高温度(X2)和最低温度(X3)这两个重要的预测因子,并且对AQI的解释能力较好。在表中,Df表示自由度,Sum Sq表示总平方和,Mean Sq表示均方(总平方和除以自由度),F value表示F统计量,Pr(>F)表示对应的p值。在分析这些结果时,需要关注系数的显著性(p值),系数的方向(正向或负向影响),以及系数的大小(估计值)。

2023-10-30 07:08:22 318

原创 R语言 使用CNN进行手写数字识别

model。

2023-10-29 22:52:18 87

原创 2.某研究想要了解摄入一种食品中常见的真菌毒素对于生物体的影响,下表展示了一组实验小鼠在该毒素的不同摄入浓度 (con; 单位:ppm)和暴露时间 time; 单位:小时)条件下的生存状态(surv;

2.某研究想要了解摄入一种食品中常见的真菌毒素对于生物体的影响,下表展示了一组实验小鼠在该毒素的不同摄入浓度 (con;(1)当不考虑实验小鼠的性别时,请选用恰当的回归模型,分析摄入浓度和暴露时间对于实验小鼠生存状态的影响,并对所建立的回归方程进行必要的检验。定量分析摄入浓度和暴熏时间的变化如何影响实验小鼠的生存率(或死亡率),并综合阐述得到的结论。(2)考虑到实验小鼠的性别,分析雄性小鼠和雌性小鼠对于此毒素的敏感性是否有显著性差异(a-0.05)?timeconsurv76.624万N22。

2023-10-29 22:36:55 54

原创 DentMax数据集聚类分析

在进行聚类之前,我们需要对数据进行标准化。这包括计算每个变量的均值和标准差,然后将数据缩放。为了确定最佳聚类数,我们可以使用肘部法则来选择K值。最后,我们可以将聚类结果以及每个簇的平均值保存到CSV文件中。首先,我们需要安装并导入所需的R包,以便进行数据分析。根据肘部法则的结果,可以看到最佳聚类数为4。接下来,我们将从Excel文件中导入数据。可以绘制聚类结果的树状图以及数据点的分布。使用确定的最佳聚类数,执行K均值聚类。然后,使用肘部法则来确定最佳聚类数。

2023-10-29 22:31:48 56

原创 使用鸢尾花数据集,用ROC曲线比较fisher判别法,距离判别发,Bayes判别法的效果 R语言

运行以上代码后,你将会得到一个包含Fisher判别法、距离判别法和Bayes判别法的ROC曲线比较图。通过比较曲线下面积(AUC),你可以评估这些算法的分类性能。在R语言中,我们可以使用鸢尾花数据集来比较Fisher判别法、距离判别法和Bayes判别法的效果。接下来,我们可以使用这些算法来进行分类,并绘制ROC曲线来比较它们的效果。

2023-10-26 07:37:42 523

原创 R 语言 正态分布法、Weibull分布法和历史模拟法

正态分布法、Weibull分布法和历史模拟法都是用于风险评估和投资组合分析的方法。它们在模拟资产或投资组合的未来表现方面有不同的应用。正态分布法基于正态分布(或高於分布)来模拟资产或投资组合的未来表现。Weibull分布法与正态分布法不同,它使用Weibull分布来模拟资产或投资组合的未来表现。Weibull分布通常用于描述极端事件的分布。它假设未来的收益率分布将类似于过去的分布,因此不需要额外的分布假设。这些方法在不同的情况下都有其用途,具体选择哪种方法取决于你对投资组合或资产未来表现的假设和需求。

2023-10-22 17:35:33 182

原创 要使用R语言计算万科A(000002.SZ)在下一交易日,有95%的概率,收盘价对数收益率不低于多少,可以考虑使用不同的方法:正态分布法、Weibull分布法和历史模拟法。

要使用R语言计算万科A(000002.SZ)在下一交易日,有95%的概率,收盘价对数收益率不低于多少,可以考虑使用不同的方法:正态分布法、Weibull分布法和历史模拟法。这些方法都是基于不同的统计分布或模拟方法来估计下一交易日的对数收益率下限,以达到95%的概率。

2023-10-22 17:32:56 365

原创 ( 100分 ) 简化图形类型代码

【代码】( 100分 ) 简化图形类型代码。

2023-10-22 17:29:56 166

原创 ‍假想某只债券在上海证券交易所交易,其面值为100元,票面利率为4%,每半年支付一次利息,2025年4月11日到期。,并假设在该期间债券的收益率维持在3%的水平不变。

‍假想某只债券在上海证券交易所交易,其面值为100元,票面利率为4%,每半年支付一次利息,2025年4月11日到期。,并假设在该期间债券的收益率维持在3%的水平不变。(1)编写函数计算该债券于2019年11月13日至2022年11月13日期间每天的净价、全价和应计利息的变化,并以数据框的形式给出。(2)并用ggplot2画出债券价、全价和应计利息的变化。

2023-10-22 17:28:43 337

原创 使用R创建基于基因网络的可视化

这个教程将向您展示如何使用R中的igraphggraphtidyverse和ggnewscale库创建一个基于基因网络的可视化。您将学会如何导入数据、处理数据、创建图形以及添加自定义样式和标签,以便更好地理解基因之间的相互作用关系和差异表达情况。

2023-10-22 15:12:50 144

原创 使用ggtree创建基于生物进化树的可视化

ggtree是一个强大的R包,用于可视化生物进化树和相关数据。本教程将向您展示如何使用ggtree创建一个基于生物进化树的可视化,以及如何添加其他数据来增强可视化。

2023-10-22 15:05:20 313

原创 使用ComplexHeatmap库创建热图

ComplexHeatmap库是一个用于创建复杂热图的R包,可以用于可视化多维数据。创建自定义的顶部注释以显示额外信息。在示例中,我们创建了一个包含多个信息的注释。

2023-10-22 14:56:03 84

原创 R 语言 基于标签的推荐算法 实现

基于标签的推荐算法是一种推荐系统方法,它基于用户与物品之间的标签信息来进行推荐。

2023-10-22 14:50:47 82

原创 R语言 基于用户的推荐算法 的源码实现

UserCF:推荐那些和他有共同兴趣爱好的用户喜欢的物品。当系统进入正式运行阶段的时候就有不同类型的数据。

2023-10-22 14:46:53 71

原创 R 语言源码实现 基于物品的矩阵协同过滤算法

请注意,这只是一个基本示例,用于说明 Item-Based Collaborative Filtering 算法的主要步骤。在实际应用中,你可能需要更多的数据预处理和参数调整来改进推荐性能,还需要考虑性能优化和其他改进。你的提供的代码实现了基于物品的矩阵协同过滤算法(Item-Based Collaborative Filtering)的关键步骤。

2023-10-22 14:45:35 57

原创 MySQL经典50题tidyverse版.

上述做法代码不复杂(去掉中间变量把管道接一起),但是很抽象难以理解。受**“偏居一隅”**启发,与其放一起作为集合比较集合相等,何不拼接为一个字符串,比较字符串?本题可以说所有题目中最难的一道,虽然很啰嗦但穿插讲解到很多语法,还是很有意义的。注: 及格:>=60,中等为:70-80,优良为:80-90,优秀为:>=90。课程编号,课程名称,最高分,最低分,平均分,及格率,中等率,优良率,优秀率;根据多列值构造筛选条件:所有成绩都大于70分,正常是用。左连接,将学生信息合并进来,再选择想要的列。

2023-10-22 14:35:26 43

考试 冬小麦不同水分条件下的产量试验进行了不同水分处

考试 冬小麦不同水分条件下的产量试验进行了不同水分处理,为完全随机设计,试进行方差分析(wh.csv) (1)是否满足方差分析的前提假设?(提示:正态检验用shapiro.test,方差齐性检验

2024-02-26

缺失数据的类型、分布与处理 R语言

一、缺失值产生的原因 二、缺失值的类型 三、缺失值处理的必要性 四、处理缺失值的步骤 五、R语言实现方法 (一)含有缺失值的数据识别 (二)含有数据缺失值的数据处理方法

2024-02-17

在R中对天津 空气质量指数数据进行回归分析 加报告

AQI全称是Air Quality Index,指空气质量指数,用来衡量空气清洁或者污染的程度,值越小,表示空气质量越好。由于雾霾问题,全社会都很关注空气质量,政府也花了很多钱力图改善空气质量。我们作为城市市民经常要问:我们城市的空气质量到底怎样?这几年我们城市的空气质量是在改善还是恶化?我们城市的空气质量与其他城市相比,是更好还是更差? 从整体来看,天津每年的AQI都是在下降的,说明了空气质量在慢慢变好,特别是SO2,下降的速度非常的快。几乎是从一百多下降到了十几,说明了有害气体在逐年降低。根据相关检验上的p值推断,只有O3 与AQI无关。与 PM2.5 , PM10 , S02 , CO 和NO2都是有关的。基于PM2.5 , PM10 , S02 , CO ,NO,O3和质量等级对AQI进行预测,建立多元线性模型,线性模型的R2是0.9452,标准误差是13.87。

2024-02-16

企业数字化能否提高ESG绩效?

企业数字化能否提高ESG绩效? 关键词:数字化 ESG 中国 数字经济 摘要: 在数字经济时代,每个企业都必须面对数字化,但研究企业数字化对ESG绩效影响的文献有限。本文研究了2012-2010年中国上市公司企业数字化对ESG绩效的影响。我们发现,公司的数字化显著提高了ESG得分。异质性分析表明,非政治关联公司和位于高质量机构地区的公司的积极影响更为明显。我们确定了数字化影响ESG绩效的两个渠道。首先,数字化使公司能够降低代理成本并提高治理(G)分数。其次,数字化有助于公司提高商誉,并进一步提高社会(S)得分。然而,我们并没有发现数字化可以提高公司的环境(E)得分。研究结果对激励企业更多地参与ESG活动具有重要的政策意义。

2024-02-16

江汉大学2022 - 2023 学年第1 学期试卷根据课程特点,考试采取大作业形式 为了考试学生的对课程基本理论、基本知识点

1.(20分)医疗保险公司为了赚钱,需要募集比花费在受益者的医疗服务上更多的年度保费。因此保险公司投入了大量时间和金钱来研发能精确预测用于参保人医疗费用的模型。在附件insurance.csv中 age表示主要受益者的年龄; sex表示受益者的性别; bmi表示身体质量指数; children表示保险计划中包括的孩子数量; smoker表示保险人是否经常抽烟; region表示受益人在美国的居住地; expenses表示的则是年度保险计划的每个人的医疗费用; region表示受益人在美国的居住地。 1)读取附件中insurance.csv文件; q1 <- read.csv("附件/insurance.csv") attach(q1) head(q1) 2)使用一个函数查看expenses的主要统计量(中位数,最大值,最小值等等); summary(expenses) 3)使用直方图来验证保险费用expenses的分布是左偏还是有偏? hist(expenses)

2024-02-16

基于OCR的身份证要素提取设计与实现

摘要 本文针对OCR系统中身份证复印件设计一套身份证要素信息提取系统,系统采用深度卷积神经网络技术进行文字识别,系统共分为前端和后端两部分,前端系统负责上传图片和展示识别结果,后端系统负责图像处理和文字识别。提取系统具备低耦合特点,各个子模块可以独立运行,提取系统经数据集测试,识别准确率为90%。 关键词 OCR;文字识别;深度卷积神经网络 1 绪论 1.1研究背景 文字是人们日常交流使用最多的形式之一,随着近些年互联网和智能手机的蓬勃发展,人们的沟通方式逐渐变得多样化,从单一的文字形式拓展为语音和图像等多种数据形式,面对复杂的语音数据和图像数据,计算机固有的处理方式逐渐变得低效,如何让计算机看懂和理解图像是提高信息处理效率的关键。 光学字符识别(Optical Character Recognition,简称OCR)是指利用扫描仪等电子设备拍摄图像,通过检测图像中形状和亮度的变化识别出字符,图像中的字符提取为文本格式后,可供文字处理软件进行编辑加工。传统OCR识别系统使用模板匹配和几何特征抽取的方法进行识别文字,其主要应用方向为从扫描文档中提取文字信息,系统的处理流程包括:图像

2024-02-16

人民日报爬取微博可视化 python

当下微博已经成为各个年龄段网友冲浪的重要平台之一,许多影视明星、大V网红、官方代表也纷纷入驻微博这一平台.在此背景下,微博已经成为众多粉丝获取爱豆近况、爱豆自拍、和爱豆互动的有效平台之一,于是获取爱豆的微博照片、视频,能满足粉丝的追星需求.当然分析一些明星、知名博主微博点赞数、转发数、评论数并可视化,在一定程度上也能度量博主的受关注度和热度(看看就好,别当真(#.#)). 对于个人用户来说,也能使用本项目分析自己的受关注程度,查看自己一定时期内所发微博内容,不仅仅是回忆青(s)春(b)岁月,也是下饭的小甜点 对于喜欢表情包或者喜欢收藏其他类型图片的个人用户来说,也可以相关方面比较活跃(微博数量较多)的博主UID,下载相应资源到本地, 1.2 项目目的 为了开源大作业 展示开源所学知识 为了找到爱豆喜欢讲的话s 为了私藏爱豆微博所发的写真照 为了及时关注爱豆热度,制定打榜计划 2 预期目标 1. 实现根据给定目标用户的微博UID,得到目标用户微博个人资料,保存到本地 2. 依据目标用户微博UID抓取一定时期内目标用户所发(原创和转发)微博(包含图片、视频),保存

2024-02-16

题目:基于hadoop的电影可视化系统

随着互联网与移动互联网迅速蒲剧,网上电影娱乐信息数量相当庞大,人们对获取感兴趣的电影娱乐信息的需求越来越大,对电影口碑的要求也逐渐升高。如何给用户可靠的电影推荐结果,并保证用户能满意推荐系统推荐的电影是系统需要满足的一个重要条件。本文电影评分预测系统使用hadoop与centos7搭建的虚拟机系统,mapreducer处理网络爬虫获取的豆瓣热播电影,并对电影进行排序以及可视化。本系统最主要是对未上映的电影进行评分预测,给予消费者更多的权益,使消费者获得更好的观影感受,商家也可以根据消费者喜好合理安排电影场次。该系统设计的预测未上映电影评分与上映后的评分进行比较,分数比较接近,电影评分预测系统设计成功。

2024-02-16

ARMAGARCHARCH模型代码.docx

一、数据选取 数据从雅虎财经选取了联想集团2015年至2019年末的日收盘价数据,计算其日收益率,作为在R中进行操作的时间序列的原始数据。 二、数据基本统计分析及操作过程 结果分析: 根据WACD(1,2)模型的残差序列的ACF图,在10阶上有较小的序列相关性,认为该模型的残差存在低阶不相关。WACD(1,2)模型残差序列的Ljung-Box的统计量Q=0.2902,大于5%,残差序列在5%的水平下通过了检验,因此认为残差序列是白噪声序列。并且该模型的t统计量都是大于10%的临界值的,这些统计量表明WACD(1,2)模型的新息没有序列相关性或条件异方差。从而,该模型是充分的,可以很好的拟合数据。 4)比较分析 建模主要用到了EACD(1,1)模型和WACD(1,2)模型,EACD(1,1)模型对数据的拟合不是很充分,而WACD(1,2)模型对数据的拟合是充分的,因此,采用WACD(1,2)模型对耐克的数据进行拟合。

2024-02-16

基于Python的网络爬虫与数据分析学年论文

全文介绍了基于Python的网络爬虫从确定论题到最终实现效果的过程,具体内容入下: (1)第一章绪论主要说明本次设计项目的背景和目的,以及本次论文的结构。 (2)第二章相关技术介绍主要说明本次毕业设计项目涉及到的相关语言和对应的工具,包括Python, URL,Matplotlib第三方库等,以及相关的开发工具PycharmCE。 (3)第三章项目需求与设计主要说明本次设计项目需要抓取的内容和实现可视化的思路。 (4)第四章项目分析和实现,主要是将第三章设想变成现实的过程,结合实例说明操作。 (5)第五章项目测试主要说明了在实际编程过程中测试出错误时的解决方案。 (6)第六章分总结整个项目的收获与不足。 (7)最后是感谢和参考资料。

2024-02-16

本文用时间序列分析方法,对重庆市人均GDP进行相关时间序列分析,以1958年至2017年间重庆市人均GDP为原始数据,利用R软件

R语言课程论文 本文用时间序列分析方法,对重庆市人均GDP进行相关时间序列分析,以1958年至2017年间重庆市人均GDP为原始数据,利用R软件建立ARIMA(2,2,1)模型拟合该序列并根据拟合出的模型做有关短期的预测。得到的ARIMA(2,2,1)模型为: 由于样本的随机性,因而存在预测误差的缺陷,当外界发生较大变化,往往会有较大偏差。

2024-02-16

SPSS银行客户流失预警研究

银行客户流失预警研究 1.选题背景 本文立足于银行行业,关注该行业的客户流失问题。伴随着经济全球化和市场多元化发展的趋势,市场竞争变得越来越激烈,银行获得新客户需要在销售、市场、广告和人员工资上花费很多费用,且大多数新客户产生的利润不如老客户。据统计,赢得一个新客户所花费的成本是保留一个老客户的5到6倍。因此,保留住老客户、提前预测出潜在的流失客户是各个银行关心的核心问题。 在我国,商业银行处于激烈的市场竞争环境中,面临着国内银行和国外银行的双重竞争压力。在这样的情况下,商业银行发展自身潜力、吸引优质顾客、防止顾客流失就显得格外重要。客户是企业最重要的资产,通过完善的客户服务和深入的客户分析来满足客户的个性化需求,提高客户的满意度和忠诚度,才能保证银行利润增长的实现。 银行客户流失是指银行的客户终止在该行的所有业务,并销号。但在实际运营中,对于具体业务部门,银行客户流失可以定位为特定的业务终止行为。商业银行的客户流失较为严重,流失率可达20%。目前国内大多数商业银行对客户流失的问题关注度很高,但研究相对较少。本文关注银行的客户流失问题,希望通过研究客户的可区分的属性特征将只知道属性变量

2024-02-16

Java扩大Java设计模式

为了更系统的学习设计模式,特地开了这样一个基于Java的设计模式【集中营】,都是笔者在实际工作中用到过或者学习过的一些设计模式的一些提炼或者总检。慢慢地初见规模,也有几个朋友给我点鼓励,给了star。本文工程主要计划以下几大块,希望大家也可以一起加入进来,扩大Java设计模式这块的运用场景的提炼。 1. 设计模式简介:主要介绍各种设计模式的概念和运用场景等 2. 设计模式综合运用:主要是笔者在实际工作中运用到的一些设计模式综合运用事例的提炼 3. Spring设计模式简介:主要是讲述Spring源码中运用到的一些设计模式 4. Ibatis设计模式简介:主要是讲述Ibatis源码中运用到的一些设计模式

2024-02-16

NLP 项目根据用户的生成的内容,抽取其中涉及的实体、观点,根据抽取的内容构建话题-观点图谱

【实验目的】: 1. 根据用户的生成的内容,抽取其中涉及的实体、观点,根据抽取的内容构建话题-观点图谱。 2.完成数据采集,并进行数据信息可视化展示,包括数据内容,数目,采集平台。 3.完成模型搭建,以网页的形式展示分析效果。 【实验环境】: 1.前端语言:Nodejs + Vue 后端语言:Flask 数据标注平台:Docanno 2.Windows10系统 3.依赖安装: 后端: pytorch+Flask+jieba+networkx+pandas+transformers==4.30.2+matplotlib+sklearn+mysql+bs4+requests+tqdm 前端:elemen-plus+axios+pinia 预训练模型:bert-base-chinese 【参考文献】: 采集数据在Model_code的data中 标注数据和预处理数据在Model_code的data_process中 Model_code为模型代码 front_end为前端代码,命令行运行npm run dev back_end为后端代码,运行app.py即可

2024-02-16

Java学生在线2024寒假实训项目-后端仓库

Java学生在线2024寒假实训项目-后端仓库

2024-02-16

淘宝商品信息爬虫及数据存储脚本

这个Python脚本用于在淘宝网站上进行商品信息的爬取,并将所得数据存储到MySQL数据库中。以下是脚本的主要功能和步骤: 1. **导入库:** - 脚本开始时导入了必要的库,包括`pymysql`用于MySQL数据库操作,`selenium`用于网页爬取,以及`pyquery`用于HTML解析。 2. **配置:** - 针对MySQL数据库连接的配置参数被定义,如主机、端口、用户、密码、数据库和字符集。 3. **MySQL连接:** - 使用配置参数建立了到MySQL数据库的连接。 4. **Webdriver设置:** - 脚本配置Chrome浏览器使用`webdriver.Chrome()`,并设置了特定选项,如禁用自动化功能。 5. **搜索功能:** - `search_goods`函数导航到淘宝,进行搜索,并遍历页面以爬取产品信息。 6. **页面导航:** - `page_turning`等函数处理页面导航,而`random_sleep`引入了随机延迟,模拟人类操作。

2024-01-14

浙江越秀外国语学院2023-2024学年第一学期期末考试 《R语言与数据分析》试卷

第一部分:数据探索和可视化 1.附件中是2022年下半年和2023年上半年我校学生全国大学英语四、六级考试成绩数据集。请学号末两位数字整除4的同学以csv格式导入2022年下半年我校学生全国大学英语四级考试成绩;学号末两位数字除以4余1的同学导入2022年下半年我校学生全国大学英语六级考试成绩;学号末两位数字除以4余2的同学以csv格式导入2023年上半年我校学生全国大学英语四级考试成绩;学号末两位数字除以4余3的同学以csv格式导入2023年上半年我校学生全国大学英语六级考试成绩。 2.以各自导入的数据为数据集,统计缺失值的个数并删除缺失值;通过箱线图找出异常值,并尝试分析出现异常值的原因;通过散点图探索阅读分数和作文分数的关系,并加以分析;通过绘制听力、阅读、作文分数的直方图,分析我校各项成绩是否服从正态分布。(图中的纵横坐标代表的变量,要显示有图形上) 3.求数据集中听力、阅读、作文三个分量的最大值、最小值、标准差、求和、中位数和平均数。 4.筛选出国际商学院学生的英语成绩,并求出0%,10%,20%,…,90%,100%位置的值。 第二部分:数据处理和分析 1.计算英语总分数,

2024-01-14

R 语言 基于关联规则与聚类分析的消费行为统计

R 语言 基于关联规则与聚类分析的消费行为统计 数据集

2024-01-14

Pygame库构建的交互式夜景场景

这个项目是一个使用Pygame库实现的交互式场景,旨在展示一个夜晚的上海城市风光。通过图像、动画和音频的结合,营造了一种夜幕降临下的城市氛围。 首先,项目加载了一张上海的背景图片,作为整个场景的背景。这张图片呈现了上海夜晚的建筑和灯光,为整个场景提供了基础。 其次,项目创建了一个城市动画,其中包括了移动的云彩和闪烁的星星。这些元素通过不断更新和绘制,营造出了城市夜晚的动感和生机。 除此之外,场景中出现了烟花效果。烟花在规定的时间间隔内随机出现,每次出现都呈现出不同的颜色和形状,通过粒子效果展现了夜空中绚烂的烟花盛景。 在画面中央,一个明亮的圆形代表着夜空中的月亮。这个简单的图形增添了整个场景的层次感和视觉焦点。 此外,漂浮的字幕为场景增添了一份文化氛围。这些字幕以不同的速度从屏幕底部向上浮动,逐渐显示出“上海欢迎你”的字样,同时随机改变颜色,营造出多彩多姿的效果。 音频方面,场景中播放着柔和的音乐,为整个氛围增添了一份宁静与美好。 整个项目通过结合视觉、动画和音频元素,创造出了一个生动、多样且富有活力的夜晚上海城市景观。观众可以通过交互式地观察这个场景,感受到夜晚城市的美

2023-12-24

数据是因特尔从19730131 到 20091231 的对数收益率的数据,存储在m-intcsp7309.txt中 m-i

一、三、实验目的与要求实验数据 数据是因特尔从19730131 到 20091231 的对数收益率的数据,存储在m-intcsp7309.txt中。 m-ibmsp6709.txt存储因特尔从19670131 到 20091231的对数收益率的数据 二、实验内容 1.研究样本:选择股票、汇率、原油、大宗商品价格数据,计算收益率。 2.检验收益率的自相关函数和偏自相关函数; 3.检验收盉率平方的自相关函数和偏自相关函数 4.检验ARCH效应。 5.确定模型(从ARCH、 GARCH、 TGARCH选择) 6.估计模型 7.检验标准化残差 8.绘制条件异方差图像; 9进行向前12期预测。

2023-12-14

R 语言 基于关联规则与聚类分析的消费行为统计 报告+ 代码

原文: https://blog.csdn.net/Mrrunsen/article/details/125476341?utm_source=miniapp_weixin 题 目: 基于关联规则与聚类分析的消费行为统计 学生姓名: 序号: 学生姓名: 序号: 学生姓名: 序号: 学生姓名: 序号: 指导教师: 信息工程与计算机学院 2020年06月3日 基于关联规则的消费行为统计 摘 要:“双十一”购物狂欢节现已成中国电子商务的年度盛典,随着电子商务平台的逐渐兴起,平台的竞争也越来越强,为了更好地提高平台和商家利润,我们决定研究围绕平台和购物者的数据集。我们确定了背景及目标,对数据进行理解和详细的多方位分析。也进行了关联规则分析和聚类分析,发现了多种实际情况,并查看了各类别的分布情况,将结果绘制成散点图。 最终,我们对所有分析进行总结并得出结论,将结论模拟应用到现实生活场景之中,对平台的产品进货情况,库存量,以及个性化推荐营销都做出了基于分析的相关建议。同时,我们也更加深入的了解了数据挖掘与分析的流程和目的。 关键词:R语言;关联规则分析;聚类分析;散点图 —————————

2023-12-10

近几年有关大语言模型推荐系统、会话推荐系统以及公平性相关的文献

近几年有关大语言模型推荐系统、会话推荐系统以及公平性相关的文献

2023-11-03

知了课堂 问答论坛 flask项目 前端: html css js 三件套 以及 Ajax的使用 后端: python, 第三方

1. 项目背景和目标 开发这个项目,想到了平时经常询问ChatGPT 学习或者生活上的问题, 但是大部分GPT网站保存会话都是一整个上下文会话, 无法单独抽出保存一个问题. 日后只能去翻找,很麻烦. 通过这个知识论坛,不仅可以将平时询问GPT 有意义有价值的问题给记录下来,同时也很方便日后翻看查找学习. 2. 技术架构 前端: html css js 三件套 以及 Ajax的使用 后端: python, 第三方库: flask, flask_sqlalchemy,flask_mail,flask_migrate,werkzeug.security.... 数据库: mysql 3. 功能模块 注册登录 首页(问题展示) 发布问题 评论 关键字搜索 4. 开发过程 4.1 注册模块(前端方面)

2023-11-03

蜂巢幼虫识别项目是一个基于计算机视觉和深度学习技术的应用,旨在帮助养蜂者有效地监测和管理蜂巢内的幼虫群体

1 配置参数 打开config.json文件,请根据需求进行修改: { "multipleCamera": true, //是否开启双摄像头,true表示多摄像头,false表示单摄像头 "diameterThreshold": 2.0, //检测幼虫的直径阈值,小于这个阈值就会被捕捉,大于等于这个阈值则无信号输出,单位是mm "sleepTime": 1.0, //向机械臂发送信号后,等待响应的时长 "dojiOffset": 1.0, //红色准星偏离蓝色准星的最大距离,单位是mm "resolution": [1920, 1080], //最终显示的分辨率,可以设置的分辨率:最小[640, 360],最大[2592, 1944],默认[1920, 1080] "preProcess": false, //是否进行预处理,以下3项是预处理的参数,true是做预处理,false是不做预处理 "topOffset": 0.0, //预处理(上下

2023-11-03

上机任务二: 作业要求:以薪资为因变量,其他指标为解释变量,建立模型,研究影响工商管理专业毕业生薪资的因素

上机任务二: 作业要求:以薪资为因变量,其他指标为解释变量,建立模型,研究影响工商管理专业毕业生薪资的因素。 R语言作业

2023-10-30

上机任务一:空气质量指数 (air quality index,AQI是定量描述空气质量状况的指数 为了更好地了解和人们身体健康

上机任务一:空气质量指数 (air quality index,AQI是定量描述空气质量状况的指数。为了更好地了解和人们身体健康

2023-10-30

DentMax聚类分析 R语言

使用R语言进行了DentMax数据集的聚类分析。 以下是有关聚类分析的更详细描述: 1. **数据导入:** 首先,您导入了名为"DentMax"的数据集,这是一个Excel文件。这一步骤旨在准备数据以进行进一步的分析。 2. **变量标准化:** 在进行聚类分析之前,您对数据进行了标准化。标准化是为了确保数据的不同变量在相同的尺度上,这有助于避免某些变量对聚类结果产生过大的影响。您计算了每个变量的均值和标准差,然后将数据进行了缩放。 3. **确定最佳聚类数:** 您使用了"肘部法则"来确定最佳的簇数。通过尝试不同的簇数,并计算每个簇数下的总内部方差(wss),您可以找到一个簇数,其中wss不再显著减小,这就是最佳的簇数。在您的示例中,最佳簇数被确定为4。 4. **K均值聚类:** 基于确定的最佳簇数,您执行了K均值聚类。K均值聚类是一种迭代的聚类算法,它将数据点划分为K个簇,其中K是之前确定的最佳簇数。每个簇有一个质心,数据点被分配

2023-10-29

TCP-HTTP-操作系统.pdf

HTTP 状态码 2xx:表示报文被成功接收 3xx:表示重定向,客户端重新发起请求 301永久重定向,302临时重定向 304资源为修改,读取缓存 4xx:客户端错误,服务器无法处理 403服务器禁止访问 404资源没有在服务器找到 5xx:服务器处理请求发生错误 501客户端请求功能还不支持 502服务器网关出错 Get和Post的区别 Get是从服务器获取资源,请求参数一般在URL上 Post是根据请求负荷(body)对指定资源做出处理 使用HTTP传输的内容是明文,所以没有绝对的安全。 HTTP缓存技术 强制缓存(from disk cache):在响应时可以设置有效期Cache-Control(相对时间)或者Expires(绝对 时间),同时存在时Cache-Control的优先级高。 协商缓存:在请求服务器时返回304,与服务端协商之后,通过协商结果来判断是否使用本地缓存 If-Modified-Since 和 Last-Modified:基于时间实现,在发现请求到的资源携带 Last-Modified,那 么在下一次请求时,会将其值携带在If-Modified-Since

2023-10-24

RocketMQ概念 producer:生产者,消息发送者

RocketMQ概念 组成: producer:生产者,消息发送者 producer group:生产者组,由多个生产者组成, nameSrv:路由注册中心,将 Broker:代理服务器,负责消息的存储,投递,查询 BrokerCluster:代理服务器集群,保证高可用和高可靠 consumer:消费者,消费消息 consumer gruop:消费者组,每个消费者组之间互不干扰。 消费模式: 集群消费:消费者负载均衡的消费消息 广播消费:每个消费者都各自消费全部消息,一份消息被多个消费者消费 具有以下特点: 能够保证严格的消息顺序 提供丰富的消息拉取模式 高效的订阅者水平扩展能力 实时的消息订阅机制 亿级消息堆积能力 Topic:主题,将消息进行分类,让消费者只消费自己想要的消息 Tag:将消息在Topic的基础上再次分类,消费者可以进一步细化自己想要的消息

2023-10-24

Java整理的基础工具类项目

Spring+Redis实现无缝读写分离插入(com.shawntime.utils.rwdb) Redis操作封装(com.shawntime.utils.cache.redis) Redis分布式锁实现(com.shawntime.utils.lock) 读写锁控制强制读取缓存同步 线程池管理类 配置文件初始化启动读取 Cookie工具类 JavaBean工具类 IP工具类 Json对象转换工具类 MD5工具类 Number工具类 Spring工具类 电话操作类 地理坐标处理WGS-84坐标转换成百度坐标工具类 DES加密工具类 参数验证注解 Xss攻击 接口访问超时拦截器 二叉树模糊匹配数字 Socket连接池封装 guava本地缓存异步更新 Redis实现Ip、手机号等访问次数限时,支持按照时间段(天、时、分、秒),支持按时间内(每一时间内) LocaleDate 日期处理工具类

2023-10-23

经典设计模式讲解以及项目实战(Java版)

本文工程主要计划以下几大块,希望大家也可以一起加入进来,扩大Java设计模式这块的运用场景的提炼。 设计模式简介:主要介绍各种设计模式的概念和运用场景等 设计模式综合运用:主要是笔者在实际工作中运用到的一些设计模式综合运用事例的提炼 Spring设计模式简介:主要是讲述Spring源码中运用到的一些设计模式(将来增加) Ibatis设计模式简介:主要是讲述Ibatis源码中运用到的一些设计模式(将来增加) 分享说明

2023-10-23

使用R创建基于基因网络的可视化

用igragh和ggraph包绘制美观的蛋白互作网络图 导入数据、处理数据、创建图形以及添加自定义样式和标签,以便更好地理解基因之间的相互作用关系和差异表达情况。

2023-10-22

使用ggtree创建基于生物进化树的可视化

ggtree是一个强大的R包,用于可视化生物进化树和相关数据。本教程将向您展示如何使用ggtree创建一个基于生物进化树的可视化,以及如何添加其他数据来增强可视化。

2023-10-22

使用ComplexHeatmap库创建热图

关于使用ComplexHeatmap库创建热图的教程。以下是一个简要的教程大纲,其中包括一些示例代码和解释,帮助用户理解如何使用ComplexHeatmap库创建热图。

2023-10-22

R 语言 基于标签的推荐算法 实现

**算法步骤**: 1. **建立数据模型 (User-Tag, Item-Tag)**: - 从用户和物品的角度,建立一个标签数据模型。这可以是一个表格或矩阵,其中行表示用户,列表示标签,每个单元格中的值表示用户是否与特定标签相关联或感兴趣。用户可以为其喜欢的物品添加标签,或者标签可以通过用户的行为历史自动生成。 - 这一步骤通常需要一个标签系统,其中用户可以选择或创建标签,并将它们与物品相关联。这个过程可以是手动的,也可以使用自动化方法。 2. **User-Item 相似矩阵**: - 基于建立的用户-标签和物品-标签关系,计算用户与物品之间的相似性。这个相似性通常使用一种相似度度量,例如余弦相似度、Jaccard相似度或基于标签的相似性来计算。 - 为了计算用户-物品相似性,你可以构建用户-标签矩阵和物品-标签矩阵,然后通过这两个矩阵计算用户-物品相似矩阵。这将给出用户和物品之间的相似性得分。 - 这个相似性得分表示用户与物品之间的标签相关性,可以用于生成推荐。 3. **推荐**: - 一旦得到用户-物品相似矩阵,就

2023-10-22

R语言 基于用户的推荐算法 的源码实现

UserCF:推荐那些和他有共同兴趣爱好的用户喜欢的物品 一、数据集 当系统进入正式运行阶段的时候就有不同类型的数据 比如 标签库 访问轨迹 投放数据 二、算法实现步骤 1 建立数学模型 2 相似度计算 3 最紧邻计算 4 推荐结果

2023-10-22

R 语言源码实现 基于物品的矩阵协同过滤算法

R 语言源码实现 基于物品的矩阵协同过滤算法

2023-10-22

R语言的疫情可视化项目

R语言的疫情可视化项目 创建一个交互式和信息丰富的疫情可视化项目,以便公众、政府官员和疫情研究人员能够更好地理解和分析COVID-19疫情数据。 COVID-19病例数据:从公共卫生机构、世界卫生组织(WHO)、约翰斯·霍普金斯大学等可靠来源获取每日更新的COVID-19病例、死亡和康复数据。 人口数据:获取各地区的人口统计数据,以计算感染率、死亡率等百分比指标。

2023-10-22

R 语言实现常用的推荐算法

R 语言实现常用的推荐算法 利用相似兴趣好友推荐的喜欢物品UserCF算法 利用喜欢的物品推荐相似物品的ItemCF算法 利用用户和物品之间包含共同特征的标签推荐 基于标签的推荐系统,新用户标签问题比较少可以利用挖掘标签关联规则来增加标签 Apriori 算法用于挖掘标签组合 svd奇异值矩阵分解 recommenderlab R语言 推荐算法包的使用

2023-10-22

基因表达差异的箱线图*

提供的R代码的教程,代码主要用于创建箱线图和条形图,以可视化数据集中的分组差异

2023-10-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除