日月流水-CSDN博客

原创 R语言数据挖掘：随机森林（1）

数据集heart_learning.csv与heart_test.csv是关于心脏病的数据集，heart_learning.csv是训练数据集，heart_test.csv是测试数据集。在本文中我们使用tuneRF()函数，为训练数据集选择最优调节参数mtry来建立随机森林模型，并把模型应用于测试数据集进行预测。heart_learning

2024-04-03 08:22:08 1077

数据集heart_learning.csv与heart_test.csv是关于心脏病的数据集，heart_learning.csv是训练数据集，heart_test.csv是测试数据集。循环的思想是用建立的决策树fit.tree中子树矩阵每个子树对应的复杂度参数CP去修剪决策树，得到每个修剪后的子树，用这些修剪后的子树去验证分层随机抽样后的数据集valid，得到了预测概率和分类结果，与实际真值进行比对，得到了预测准确率，数据框results有两列，一列是每个子树的CP值，一个是验证准确率。

2024-03-31 01:07:02 1176

原创 R语言神经网路模型应用（1）

'size1','size2','size3','cdecay','accuclass'，分别代表：第一隐藏层的单元数，第二隐藏层的单元数，第三隐藏层的单元数，前面三列分别取值为2,4,6,8,10，第四列cdecay为权衰减常数，取值为0或0.005，第五列accuclass为模型分类的准确率，而分类准确率由下面的表达式定义，(length(which(class1==heart_valid$target2)))/length(heart_valid$target2)。

2024-03-26 21:50:15 855

原创 R语言逻辑回归与lasso模型

交叉验证的平均误差随着调节参数lambd对数值的变化而变化的图形，从图形中交叉验证的平均误差最小值对于的lambda,对数为-3.546917，相应的lambda的值为 0.02881333。1、建立二元变量target2对自变量age,sex,pain,bpress,chol,bsugar,ekg,thalach,exang,等自变量的回归模型，因为因变量target2仅取0和1两值，因此该模型为普通的logistic逻辑模型。因变量，直径减少50%以上的大血管数目，取值0,1,2,3,4。

2024-03-22 23:10:48 959

原创 R语言线性回归模型和lasso变量选择模型

保险收费数据集：insurance.csv，各变量为年龄age，性别sex，健康指数bmi，孩子数量children,是否吸烟smoker，区域region，保险收费charges.结论：可见使用lasso模型进行变量选择得到的回归模型比普通的线性回归模型计算得到的预测均方根误差有较大的减少。b、使用交叉验证的误差最小的值得到的模型对测试数据的因变量的预测值。使用lambda.min交叉验证的误差最小的值得到的回归系数为。c、使用lasso模型计算保险费支出的预测的均方根误差。运行得到了回归模型的系数。

2024-03-22 14:35:21 842

原创 R语言聚类分析-K均值聚类与系统聚类法

一、数据集为firm.csv，给出了22家美国公用事业公司的相关数据集，各数据集变量的名称和含义如下：X1为固定费用周转比（收入/债务），X2为资本回报率，X3为每千瓦容量成本，X4为年载荷因子，X5为1974-1975年高峰期千瓦时增长需求，X6为销售量（年千瓦时用量），X7为核能所占百分比。六、使用R软件程序包NbClust进行聚类分析，程序包中的NbClust()函数提供最佳类别数的30种统计方法，综合各种最佳类别数的统计指标来给出最佳类别数的判断，下面是初步的介绍。

2024-03-17 20:09:41 1497

原创 R语言数据挖掘-关联规则挖掘（1）

在这里用到了管道函数，对年龄、健康指数、保险费用按区间分组，把年龄分为4组，健康指数分为5组，保险费支出分为了4组，然后对分组后的变量使用as.factor()转换为因子型变量。本文的主要目的是分析在年龄、性别、体重指数、孩子数量、是否吸烟、所在区域中这些因素中，哪些因素对保险费支出影响最大，这些因素中哪些因素与保险费用的关联最大。要分析的数据是美国一区域的保险费支出的历史数据。例如第一条年龄在0到25岁之间，无小孩，不吸烟的家庭关联最低程度的保险费用支出的支持度为0.1121，置信度94.34%。

2024-03-15 21:59:18 1575

原创使用R语言进行聚类分析

1、类平均法（average linkage）2、重心法（centroid method）3、中间距离法（median method）4、最长距离法（complete method）5、最短距离法（single method）6、离差平方和法（ward method）7、密度估计法(density method)很明显该聚类结果和系统聚类法得到的结果存在显著差异。内蒙古,6445.8,2543.3,4006.1,1565.1,3045.2,2598.9,1840.2,699.9。

2024-03-08 09:30:19 1287

原创使用R语言进行判别分析

内蒙古,6445.8,2543.3,4006.1,1565.1,3045.2,2598.9,1840.2,699.9,2。河北,4991.6,1614.4,4483.2,1351.1,2664.1,1991.3,1549.9,460.4,2。福建,8299.6,1443.5,6530.5,1393.4,3205.7,2461.5,1178.5,492.8,2。河南,5067.7,1746.6,3753.4,1430.2,1993.8,2078.8,1524.5,492.8,2。

2024-02-29 00:17:38 1016

原创使用R语言进行主成分和因子分析

主成分Y2在x6,x7上面系数较大，在其他指标上面系数较小，因此主成分2主要反映的是水泥企业的盈利能力。3 河北 3.492990 -1.76504930 -1.1354352 0.83091321 -0.27063999 -0.224951646 -0.06432118。9 上海 -3.320677 -0.18636325 0.4490147 -0.28078672 0.01768420 -0.026870111 -0.00445479。

2024-02-26 17:39:57 1016

原创使用R语言进行Logistic回归分析（2）

下表是40位肺癌病人的生存资料，X1表示生活行为能力平分（1到100），X2为病人的年龄（年），X3由诊断到进入研究的时间（月），X4表示肿瘤的类型（‘0’表示鳞瘤，‘1’表示小型细胞癌，‘3’表示腺癌，‘4’表示大型细胞癌）X5表示化疗的方法（‘1’表示常规，‘0’表示试验新法）；Y表示病人的生存时间（‘0’表示生存时间短，‘生存时间小于200天，‘1’表示生存时间长，生存时间大于等于200天）要求：1、建立E(y)=P(Y=1)对X1-X5的Logistic回归模型，并进行参数显著性检验和预测。

2024-02-23 22:30:31 1136

原创使用R语言进行logistic回归分析（1）

本例中某种药物有效为1，无效为0，即某种药物的治疗效果y取值为1或0，p为某种药物有效的概率，E(y)=p即是变量y的期望。自变量为病情的轻重，轻为1，重为0，本例已给出病情轻重的样本数据，本例回归模型即是f(E(y))=β。因此定义y1,y2,y3分别为某种药物的治疗的效果，取值为1或0，有效为1，无效为0，定义x1,x2,x3分别为每种药物下实验下病情轻重样本数据，也用1和0表示。某研究者欲比较3种不同的药物治疗病情不同的某病的效果，研究数据见上表，试对数据进行logistic回归，并进行统计推断。

2024-02-23 20:35:11 1220

原创使用R语言进行多元线性回归分析-多重共线的诊断

共线性是指在进行多元线性回归时，自变量至简存在线性关系或近似线性关系，自变量的线下关系将会导致参数估计的误差增大，会产生不稳定的模型。从回归方程的结果可以看到，从回归方程系数的t检验的p值得出，只有变量x1,x4系数显著，x2和x3系数不显著。所有自变量的方差膨胀因子均小于10，无明显的共线性关系，但x1和x4的VIF值较大，从检验结果中可以看到，回归方程和回归方程的系数显著，通过了F检验和t检验。一般的标准是当方差膨胀因子VIF>10，表明模型存在较强的多重共线性。可以计算出x1和x4的相关系数为。

2024-02-23 13:18:54 1196

原创使用R语言对线性回归模型中的异方差进行诊断和处理

从残差图中直观的看出，残差图从左到右，逐渐散开，所有证明了回归模型方差齐性的假设不成立，需要对相应变量Y进行变换。从回归方程的F统计量的p值和参数检验的t统计量的p值可以看到，回归方程和回归方程的参数通过了检验。从绘制的散点图可以看到，图中的样本点分散在回归直线的周围，样本点有扩大分散的趋势。三、绘制残差和拟合值的残差图，进一步分析误差的方差齐性。从图中可以看到，散点图的分布趋势有了明显改善。对相应变量进行平方根变换，再进行回归诊断。二、对y和x,绘制散点图，并进行回归分析。得到新的回归方程：Y=

2024-02-23 09:42:57 505

原创使用R语言进行线性回归模型异常点分析

标准化残差的绝对值都小于2，可见本例样本数据并无异常点。二、计算本例的残差和标准残差，并绘制残差散点图。二、建立Y与X1与X2的回归关系。

2024-02-22 23:26:59 436

原创用R语言进行一元线性回归分析

回归方程的显著性检验的F统计量的P值2.805e-08和系数的显著性检验的t值2.8e-08和5.8e-08都低于显著性水平0.05，故回归方程和参数都通过了检验，R方为0.9799，说明数据的97%可由回归方程描述。1、从Residual 与fitted为拟合值对残差的图形，可以看出数据点基本均匀的分布在直线y=0的两侧。2、从正态OO图可以看到，图中数据点分布趋于一条直线，说明残差服从正态分布。从图中可以看到，标准化残差的绝对值都<=2，可以认为无可疑和异常的样本点。二、绘制数据的散点图。

2024-02-22 20:16:22 423

原创使用R语言进行双因素方差分析

从上面的检验结果可以看到，p值都大于显著性水平a=0.05,不能拒绝原假设，即可以认为在氧化剂和促进剂下的两因素下的方差满足方差齐性要求。从方差分析结果可以看出，氧化剂和促进剂对定申强力有显著的影响，而它们的交互作用对定申强力的影响不显著。yhj=gl(4,2,24,labels = c('b1','b2','b3','b4')) #氧化剂水平。从输出图中可以看出，两图中的曲线无相交的情况，可以初步认定两因素无交互作用。（4）不考虑两因素的交互作用的方差分析。（3）考虑两因素的交互作用的方差分析。

2024-02-14 21:22:24 608

原创 R语言中用随机模拟方法求圆周率pi

i<-0t<-0i<-i+1t(t/n)*4。

2024-02-12 23:25:21 520

原创使用R语言进行分类数据的统计分析

1 1/1/2020 广州纯棉口罩表姐 6 1 6。2 1/1/2020 武汉明星口罩王大刀 30 30 900。3 1/1/2020 深圳明星口罩王大刀 2 30 60。5 4/1/2020 武汉明星口罩张盛茗 25 30 750。4 3/1/2020 上海防雾霾口罩张盛茗 63 28 1764。

2023-12-30 08:19:35 839 1

原创使用SAS系统进行多元时间序列分析

该命令指定序列y为相应序列，序列x为输入序列，识别序列y的统计性质，并考察两者的相关性，从相关图可以看到，序列y在延迟阶数为0时与序列x的相关性最强，序列y和序列x同周期建模。从单位根检验结果可以看到，在模型为零均值和0阶滞后的情况下，残差序列为平稳序列，这样就说明序列y和序列x具有协整关系，可以在这两个序列之间建立回归模型。从差分后的序列自相关和偏自相关系数可以看出两者都在两倍标准差范围内，相关系数不显著，可以用ARIMA模型来拟合，即是ARIMA(0,2,0).显然该序列为平稳序列，考虑对其进行差分。

2023-12-24 20:14:20 669

原创用R语言进行分组数据的统计绘图分析

当数据集中含有一个或多个分类/因子变量时, 可以使用条件散点图函数coplot( )作出分类/因子变量不同水平下的多个散点图。method指明重复数据该如何放置，有3种方式， overplot是重叠放置, stack是把数据垒起放置, jitter是散放在数值的周围.（8）使用lattice()包中的densityplot( )函数绘制各组数据密度曲线图。（7）使用stripchart( )绘制条形图，同样可以考察分组数据的分布。（6）使用boxplot( )绘制盒须图，考查各组数据的分布。

2023-12-23 19:02:04 273 1

原创基于条件异方差模型GARCH对某股票价格数据进行拟合

因为股价走势是随时间走势趋势向上的，本文考虑用股票价格变量x对时间变量t做回归，提取序列中的趋势信息。（3）残差序列用2阶自回归，AR(2)-GARCH(1,2)模型来模拟该股票价格数据。(3)股票价格变量x对时间变量t做回归,并进行DW检验和条件异方差检验。再次考虑用AR(2)-GARCH(0,1)模型来模拟该股票价格数据。（4）用AR(2)-GARCH(0,1)模型来模拟该股票价格数据。异方差检验显示提取趋势信息后该残差序列为显著的异方差序列，模型的总R方为0.9996,下面是模型的拟合参数。

2023-12-19 09:27:38 58

原创使用R语言做基本的统计分析

本文介绍使用R语言做基本的统计分析，统计分析的数据集为某一国家的保险收费情况，该数据集主要用于分析影响保险收入大小的因素，数据集的第一行依次是年龄、性别、体重指数、孩子数量、是否吸烟、所在区域、保险收费。qqnorm(dff$charges,main='QQ图正态性检验')（2）对数据集做总体描述，在这里主要对保险费数据进行统计分析。从直方图和正态性检验都可以看出，该数据明显不是正态分布的数据。plot(x,ytype='s',main='经验分布函数')1、直方图，进行数据分布的频率或频数分析。

2023-12-14 23:20:59 58 1

原创使用SAS系统对季节效应的时间序列进行分析

四、从1阶12步差分后的序列自相关性和偏自相关性可以看出，序列短期相关性和序列的季节性具有关联性性，序列的季节性延迟12步自相关系数显著非零，24步自相关性不显著，偏自相关系数延迟12步和延迟24步都显著非零，季节性特征是自相关系数截尾，偏自相关系数拖尾，可以用12步的ARMA(0,12)建模。经过上面的讨论，该模型属于季节和趋势具有某种关联的时间序列，使用乘法模型较好的进行了模型拟合，因此考虑使用乘法的Holt-Winters来进行预测。经过1阶12步差分后的序列，为平稳非白噪声序列。

2023-12-11 08:31:53 990

原创时间序列ARIMA模型的拟合、模型定阶、参数估计和预测

单位根检验结果来看，可以判定其为带趋势的平稳时序数据，白噪声检验结果为非白噪声。可以考虑对时序数据进行差分，提取趋势信息。从相关图可以得到：自相关系数一阶截尾，偏自相关系数拖尾，可以考虑用MA(1)来拟合差分后的数据并进行参数估计。本文主要使用SAS模型进行时间序列数据的模型ARIMA模型的拟合和定阶。从图中，可以直观判断时间序列PP数据为带有一定趋势性时间序列数据。从运行结果可以看到，模型显著参数显著。白噪声检验结果为该序列为白噪声序列，残差的白噪声检验，显示为白噪声序列。差分后的数据已经没有趋势信息。

2023-12-02 07:49:02 1262 3

原创用SAS系统对股票（600835）价格数据进行简单时间序列分析

一阶差分后表现为平稳时间序列特征，从检验结果可以结论：该股票价格数据一阶差分后为白噪声序列。一、本例中选取2022.11.1-2.23.11.1股票600835的每日收盘价。从图中可以清楚的看到该股票全年的价格数据为非平稳带趋势的时间序列。三、对时间序列进行一阶差分分析，并进行统计分析。

2023-12-02 00:56:09 191 5

原创使用SAS系统对时间序列ARMA模型进行模型识别，阶数判定、参数估计和预测

minic p=(0:5) q=(0:5)语句输出了，自相关阶数0-5，移动平价阶数0-5时间序列的Minimum Information Criterion，对模型的阶数起到了判别作用，但该判别的阶数的起到了参考作用，但该阶数并不是一定最优的。残差的各种相关图显示，残差的自相关系数和偏自相关系数各阶相关系数都在2倍的标准差范围内，说明时间序列的相关信息提取较好，残差中相关性不显著。通过如上运用SAS系统进行如上系列操作可以非常方便的进行时间序列的模型识别，阶数判定，参数估计和预测，并进行下一步的研究。

2023-11-29 14:25:17 1602 1

原创随机模拟平稳时间序列ARMA模型，并绘制相关图

使用SAS系统来模拟这三个时间序列，e = rannor(12345)是用来产生正态分布的随机数。3、按照指定的格式绘制自相关和偏自相关系数，可以查看自相关和偏自相关系数的细节。从三个模型的相关图，可以更加清楚的验证三个模型的自相关和偏自相关的性质。1、用随机模拟的方法生成平稳时间序列ARMA模型，三个模型分别是。ARMA模型，自相关系数和偏自相关系数都拖尾。2.随机模拟完成，绘制自相关图和偏自相关图。AR模型自相关系数拖尾，偏自相关系数截尾。MA模型自相关系数截尾，偏自相关系数拖尾。

2023-11-25 18:10:52 221

原创对股票600835的2022.11.1-2.23.11.1的股票价格的时间序列进行平稳性和白噪声的检验

SAS，时间序列

2023-11-20 21:50:10 71 1

原创随机选取的股票(600835)价格数据的简单统计分析

一、随机选取上海机电（600835）的近期股票价格数据做简单的统计分析，并计算统计指标，选取期间为2022.11.2-2023.11.2一整年的股票价格数据。df['日期'] = pd.to_datetime(df['日期'],format = '%d/%m/%Y')df['涨跌幅'] = df['收盘'].pct_change(periods = 1)五、根据每日的收盘价格数据，计算每日收益率数据，并在表格中新增列‘涨跌幅’。三、对数据进行转换：把字符串的日期转换成时间类型的日期格式。

2023-11-01 23:54:39 46

原创 pandas的日常使用（1）

此时执行如下命令即可：pip install -i http://mirrors.aliyun.com/pypi/simple openpyxl==3.0.0 --trusted-host mirrors.aliyun.com。这是因为安装的pandas版本太高的缘故，需要升级openpyxl，

2023-10-15 14:49:42 751 1

原创使用机器学习方法来判断影响保险费的重要特征因素

9、结论：由此得出在这些影响保险费的一些特征因素中，年龄对保险费的影响最大，年龄的得分最大，其次家庭的孩子数量对保险费的影响，再次就是体重指数，所在区域对保险费的影响最小，得分也最小。本文的主要目的是分析在年龄、性别、体重指数、孩子数量、是否吸烟、所在区域中这些因素中，哪些因素对家庭的保险费支出影响最大。4、数据的格式化：需要把sex列转化为数字列，把smoker、区域列列转换为数字列。数据表的第一列分别为年龄、性别、体重指数、孩子数量、是否吸烟、所在区域、保险收费。把sex列转换为数字0和1表示的列。

2023-10-13 20:14:51 45

空空如也

空空如也