R语言基础

1.逻辑回归
逻辑回归是一种回归模型,其响应变量(因变量)具有分类值,如True/False或0/1。 它实际上是根据与预测变量相关的数学方程,来衡量二进制响应的概率作为响应变量的值。
y = 1/(1+e^-(a+b1x1+b2x2+b3x3+…))
R以下是使用的参数的描述 - y - 是响应变量。x - 是预测变量。a 和 b 是数字常数的系数。用于创建回归模型的函数是glm()函数

用于计算逻辑回归的glm()函数的基本语法是 -glm(formula,data,family)
R以下是使用的参数的描述 - formula - 是呈现变量之间关系的符号。data - 是给出这些变量值的数据集。family - 是R对象来指定模型的概述,对于逻辑回归,它的值是二项式。

2.正态分布
R有四个内置函数来生成正态分布。它们在下面描述 - dnorm(x, mean, sd)
pnorm(x, mean, sd)
qnorm(p, mean, sd)
rnorm(n, mean, sd)
R以下是上述函数中使用的参数的描述 - x - 是数字的向量。p - 是概率向量。n - 是观察次数(样本量)。mean - 是样本数据的平均值,默认值为零。sd - 是标准偏差,默认值为1。

1.dnorm()函数该函数给出给定平均值和标准偏差在每个点的概率分布的高度
2.pnorm()函数该函数给出正态分布随机数小于给定数值的概率。它也被称为“累积分布函数”。
3.qnorm()函数该函数采用概率值,并给出其累积值与概率值匹配的数字值。4.rnorm()函数该函数用于生成分布正常的随机数,它将样本大小作为输入,并生成许多随机数。我们绘制直方图以显示生成数字的分布。
y <- rnorm(50)

#Give the chart file a name.
png(file = “rnorm.png”)

#Plot the histogram for this sample.
hist(y, main = “正态分布”)

#Save the file.
dev.off()
第四种比较有用

3.二项分布
二项分布模型用来处理在一系列实验中只发现两个可能结果的事件的成功概率。 例如,掷硬币总是两种结果:正面或反面。使用二项式分布估算在重复抛掷硬币10次时正好准确地找到3次是正面的概率dbinom(x, size, prob)
pbinom(x, size, prob)
qbinom(p, size, prob)
rbinom(n, size, prob)
R以下是使用的参数的描述 - x - 是数字的向量。p - 是概率向量。n - 是观察次数。size - 是试验的次数。prob - 是每次试验成功的概率。
1.dbinom()函数该函数给出了每个点的概率密度分布
2.pbinom()函数该函数给出事件的累积概率,它用于表示概率的单个值
3.qbinom()函数该函数采用概率值,并给出其累积值与概率值匹配的数字
4.rbinom()函数该函数从给定样本生成所需数量的给定概率的随机值。

4.泊松回归
泊松回归涉及回归模型,其响应变量是计数形式而不是分数数字。 例如,计算出生人数或一个足球比赛系列中的胜率数。响应变量的值也遵循泊松分布。泊松回归的一般数学方程为 -log(y) = a + b1x1 + b2x2 + bnxn…
R以下是使用的参数的描述 - y - 是响应变量。a 和 b 是数字系数。x - 是预测变量。用于创建泊松回归模型的函数是glm()函数。语法实现泊松回归的glm()函数的基本语法是 -glm(formula,data,family)
R以下是上述函数中使用的参数的描述 -formula - 是呈现变量之间关系的符号。data - 是给出这些变量值的数据集。family -是R对象来指定模型的细节,逻辑回归的值是“泊松”。
上面结果中,我们在最后一列中寻找小于0.05的p值来考虑预测变量对响应变量的影响。 正如所看到的,具有M型和H型张力的羊毛型B对休息次数有影响。

5.协方差回归
我们使用回归分析来创建描述预测变量变量对响应变量的影响的模型。有时,如果我们有类似于是/否或男/女等值的分类变量,简单回归分析为分类变量的每个值提供多个结果。在这种情况下,可以通过使用分类变量和预测变量来研究分类变量的影响,并比较分类变量的每个级别的回归线。 这样的分析被称为协方差分析,也称为ANCOVA
result <- aov(mpg~hp+am,data = input)
现在可以比较这两个模型来确定变量的相互作用是否真的有意义的。 为此,我们使用anova()函数。
result1 <- aov(mpg~hp*am,data = input)
result2 <- aov(mpg~hp+am,data = input)

#Compare the two models.
print(anova(result1,result2))

6.时间序列分析
时间序列是一系列数据点,其每个数据点与时间戳相关联。 一个简单的例子就是股票在某一天不同时间点的股票价格。另一个例子是一年中不同月份某个地区的降雨量。R语言使用许多功能来创建,操纵和绘制时间序列数据。时间序列的数据存储在称为时间序列对象的R对象中。 它也是一个R数据对象,如向量或数据帧。时间序列对象是通过使用ts()函数创建的。

时间序列分析所使用的ts()函数的基本语法是 -timeseries.object.name <- ts(data, start, end, frequency)
R以下是使用的参数的描述 -data - 是包含时间序列中使用的值的向量或矩阵。start - 以时间序列指定第一次观察的开始时间。end - 指定时间序列中最后观察的结束时间。frequency - 指定每单位时间的观测次数。除参数“data”外,所有其他参数均为可选项。
不同的时间间隔ts()函数中的频率(frequency)参数的值决定了测量数据点的时间间隔。 值为12表示时间序列为12个月。其他值及其含义如下 -frequency= 12 - 每一个月的数据点。frequency= 4 - 每年四分之一的数据点。frequency= 6 - 每一小时10分钟的数据点。frequency= 24 6* - 每天10分钟的数据点。
多时间系列我们可以在一个图表中绘制多个时间序列,将这两个系列组合成一个矩阵。setwd(“F:/worksp/R”)
#Get the data points in form of a R vector.
rainfall1 <- c(799,1174.8,865.1,1334.6,635.4,918.5,685.5,998.6,784.2,985,882.8,1071)
rainfall2 <-
c(655,1306.9,1323.4,1172.2,562.2,824,822.4,1265.5,799.6,1105.6,1106.7,1337.8)

#Convert them to a matrix.
combined.rainfall <- matrix(c(rainfall1,rainfall2),nrow = 12)

#Convert it to a time series object.
rainfall.timeseries <- ts(combined.rainfall,start = c(2012,1),frequency = 12)

#Print the timeseries data.
print(rainfall.timeseries)

#Give the chart file a name.
png(file = “rainfall_combined.png”)

#Plot a graph of the time series.
plot(rainfall.timeseries, main = “多时间系列图”)

#Save the file.
dev.off()

7.R语言非线性最小二乘法
当对真实世界数据建模进行回归分析时,我们观察到模型的方程很少是给出线性图的线性方程。 大多数情况下,现实世界数据模型的方程式涉及更高程度的数学函数,如3或sin函数的指数。 在这种情况下,模型的曲线给出了曲线而不是线性。线性和非线性回归的目标是调整模型参数的值以找到最接近您的数据的线或曲线。当找到这些值时,我们才能够准确估计响应变量。在最小二乘回归中,我们建立了一个回归模型,不同点与回归曲线的垂直距离的平方和之和最小化。 我们通常从定义的模型开始,并假设系数的一些值。 然后应用R中的nls()函数来获得更准确的值以及置信区间。

在R中创建非线性最小二乘检验的基本语法是 -nls(formula, data, start)
R以下是使用的参数的描述 - formula - 是包含变量和参数的非线性模型公式。data - 是用于评估(计算)公式中的变量的数据帧。start - 是起始估计的命名列表或命名数字向量。

我们假设初始系数为1和3,并将这些值拟合成nls()函数。setwd(“F:/worksp/R”)
xvalues <- c(1.6,2.1,2,2.23,3.71,3.25,3.4,3.86,1.19,2.21)
yvalues <- c(5.19,7.43,6.94,8.11,18.75,14.88,16.06,19.12,3.21,7.58)

#Give the chart file a name.
png(file = “nls.png”)

#Plot these values.
plot(xvalues,yvalues)

#Take the assumed values and fit into the model.
model <- nls(yvalues ~ b1*xvalues^2+b2,start = list(b1 = 1,b2 = 3))

#Plot the chart with new data by fitting it to a prediction from 100 data points.
new.data <- data.frame(xvalues = seq(min(xvalues),max(xvalues),len = 100))
lines(new.data$xvalues,predict(model,newdata = new.data))

#Save the file.
dev.off()

#Get the sum of the squared residuals.
print(sum(resid(model)^2))

#Get the confidence intervals on the chosen values of the coefficients.
print(confint(model))

8.决策树
决策树是以树的形式表示选择及其结果的图形。图中的节点表示事件或选择,并且图形的边缘表示决策规则或条件。它主要用于使用R的机器学习和数据挖掘应用程序。使用决策的例子是 - 将接收的邮件预测是否为垃圾邮件,根据这些信息中的因素,预测肿瘤是癌症或预测贷款作为良好或不良的信用风险。 通常,使用观察数据也称为训练数据创建模型。 然后使用一组验证数据来验证和改进模型。 R具有用于创建和可视化决策树的包。 对于新的预测变量,我们使用该模型来确定数据的类别(是/否,垃圾邮件/非垃圾邮件)。R包“party”用于创建决策树。
包“party”中包含用于创建和分析决策树的ctree()函数。

R中创建决策树的基本语法是 -ctree(formula, data)
R以下是使用的参数的描述 -formula - 是描述预测变量和响应变量的公式。data - 是使用的数据集的名称。

  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值