R语言
文章平均质量分 70
R工具在算法中的使用
咕噜oo
我们往往低估了一年内能做的事,却高估了十年后能做的事——万丈高楼平地起。
展开
-
什么是假设检验?
假设检验在参数估计的区间估计中,我们提到置信区间的概念,有提到置信区间最主要的应用是用于假设检验。(详情请见☞什么是参数估计)那什么是假设检验?假设检验(test of bypothesis)是统计推断的一个重要内容,用于判断某个假设是否正确。在数据分析中,总体的参数始终是不可知的,只能由统计量推断总体的参数。在统计推断过程中,需要对参数提出一定的假设,然后对提出的假设进行假设检验。 假设检验与参数估计(包括点估计和区间估计)是建立在中心极限定理和抽样分布之上的推断统 计的两个重要基础方法,由这原创 2020-12-03 17:03:23 · 20331 阅读 · 1 评论 -
R与线性模型有关的函数总结
目录lm( )summary()anova()coef()deviance()formula()predict()lm( )应用于线性模型fitted.model <- lm(formula, data =data.frame)其中:formula是模型公式,比如一元线性模型公式:y~x1 data是数据框此外,针对lm( 的结果,我们可以使用 如下的函数做进一步处理:summary( )、 add1( )、 drop1( ) 、coef( ) 、.原创 2020-10-29 17:41:35 · 2284 阅读 · 0 评论 -
用R语言学习数据挖掘——8.一元线性回归
一元线性回归概念若有如下数据:(部分数据)做出散点图直观观察:可以看出X和Y基本符合一个线性关系。> X<-c(0.1,0.11,0.12,0.13,0.14,0.15,0.16,0.17,0.18,0.2,0.21,0.23)> Y<-c(42,43.5,45,45.5,45,47.5,49,53,50,55,55,60)> plot(X,Y)我们可以认为Y与X的关系基本上是线性的,而这些点与直线的偏离是由其他一切不确定因素的影响造成的,为此可原创 2020-10-29 16:36:51 · 2295 阅读 · 0 评论 -
用R语言学习数据挖掘——7.协方差和相关系数
目录概念浅析样本协方差相关系数R分析概念浅析简单理解:标准差和方差一般是用来描述一维数据的,而协方差和相关系数则是用来描述二维数据的。样本协方差具体来讲,样本的协方差为:相关系数随机变量X和Y的协方差用于度量X和Y同时增大,或一个增大一个减少的程度,但是要想说明这两个随机变量的相关性高不高,用协方差是体现不出来的,所以要用到相关系数。相 关系数是一个百分数。相关系数的绝对值是大于等于0,小于等于1的数。对于相关系数,我们从它的公式入手。一般情.原创 2020-10-19 17:45:39 · 5500 阅读 · 2 评论 -
R语言基础之用R语言绘制各类函数图像
数据作图是数据分析的重要方法之一,R提供了丰富的作图函数。R有两类作图函数,一类是高水平作图函数,另一类是低水平作图函数。高水平作图函数:所有的绘图函数均可产生图形,可以有坐标轴,以及图和坐标轴的说明文字等。有plot() 、pairs() 、 coplot() 、qqnorm() 、qqline() 、hist() 、contour() 等 低水平作图函数:作图函数本省无法生成图形,只能在高水平作图函数产生的图形的基础上,增加新的图形。有points() 、lines() 、 text() 、原创 2020-10-19 16:38:34 · 31270 阅读 · 1 评论 -
用R语言学习数据挖掘——6.随机变量及其分布(指数分布)
目录指数分布概念用R模拟指数分布案例概率密度函数例1例2累计分布函数例3分布检验指数分布概念指数分布(Exponential distribution)用来表示独立随机事件发生的时间间隔,许多电子产品的寿命分布一般服从指数分布。它在可靠性研究中是最常用的一种分布形式。指数分布的区间是[0,∞),上式中λ > 0是分布的一个参数,常被称为率参数(rate parameter)。即每单位时间发生该事件的次数。如果一个随机变量X 呈指数分布,则可以写作:.原创 2020-10-18 21:01:12 · 13473 阅读 · 0 评论 -
用R语言学习数据挖掘——5.随机变量及其分布(正态分布)
目录概率密度函数概率密度曲线图用R做正态分布正态分布(Normal distribution)又名高斯分布(Gaussian distribution),是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。可以说是最重要的一种分布,也是应用最广泛的连续型分布。正态分布是具有两个参数μ和σ^2的连续型随机变量的分布。第一参数μ是遵从正态分布的随机变量的均值(期望),这个参数决定了分布的位置。 第二个参数σ^2是此随机变量的方差,这个参数决定了分布的原创 2020-10-16 21:44:34 · 4788 阅读 · 0 评论 -
用R语言学习数据挖掘——4.随机变量及其分布(二项分布)
目录均匀分布伯努利分布二项分布rbinom(n,size,prob)随机变量X(random variable)表示随机试验各种结果的实值单值函数。描述一个随机变量,不仅要说明它能够取哪些值,而且还要关心它取这些值的概率。因此,引入随机变量的分布函数概念。对每个随机变量X和每个实数集合A,可以计算X取A中值的概率。所有这些概率的集合就是随机变量X的分布。随机变量以及分布函数主要有两类:离散型分布和连续型分布。离散型分布:当X只能取有限个不同值x1,x2,……Xk时,我们称原创 2020-10-16 21:18:18 · 6356 阅读 · 0 评论 -
用R语言学习数据挖掘——3.用R计算数据基本统计量(方差)
方差和标准差都是数据散布度量。这两个值越小,意味着数据观测趋向于非常靠近均值。方差公式:标准差是方差的平方根。例子:计算学生体重的方差 75,64,47.4,66.9,62.2,62.2,58.7,63.5计算方差> data<-c(75,64,47.4,66.9,62.2,62.2,58.7,63.5)> result=var(data);result[1] 60.21268计算标准差> data<-c(75,64,47.4,66.9,原创 2020-10-16 20:03:47 · 13765 阅读 · 0 评论 -
用R语言学习数据挖掘——2.用R计算数据基本统计量(中位数、百分位数)
学习了用R计算样本数据的平均值之后(用R计算均值),下面继续学习其他统计量。中位数定义:为什么要有中位数?我们要知道的是,均值描述并不总是可靠的或最佳的。均值对于极端值(例如离群点)很敏感, 比如整个公司薪水的均值由几个极高收入的经理显著推高。为了抵消少数极端值的影响,我们可以使用截尾均值(丢弃极端值后计算均值)。截尾均值一般是去掉高端和低端的2%数据。但是,当异常值的价值非常大时,用截尾均值同样会丢失大量的价值数据。对于倾斜数据,更好的度量值是中位数。中位数定义为数据排序位原创 2020-10-15 21:10:19 · 11492 阅读 · 0 评论 -
用R语言学习数据挖掘——1.用R计算数据基本统计量(均值)
目录均值(mean)用R计算均值mean(x, trim=0, na.rm=FALSE)例1例2apply(x,1或2,计算函数 )例3参数trim例4参数na.rm例5学习机器学习和数据挖掘中的各种算法和模型,需要掌握统计学的基本概念。统计学是通过搜索、整理、分析数据等手段,以达到推断所测对象的本质,并预测对象未来走势的一门综合性科学。简单说,统计学是根据样本估计总体的科学。它的一些思想和大数据思想有些相悖,不关注数据的大小,而是更关注数据的好坏。分原创 2020-10-15 20:38:57 · 33375 阅读 · 0 评论 -
R语言基础之R语言必会基础语法(为之后的机器学习打基础)
R是一套完整的数据处理、计算和制图软件系统。其功能包括:数据存储和处理系统;数组运算工具(其向量、矩阵运算方面功能尤其强大);完整连贯的统计分析工具;优秀的统计制图功能;可操纵数据的输入和输出,可实现分支、循环,用户可自定义功能。它可以提供一些集成的统计工具,但更大量的是它提供各种数学计算、统计计算的函数,从而使使用者能灵活机动的进行数据分析,甚至创造出符合需要的新的统计计算方法。不要把R作为一种计算机语言来学习,而是要把它当做工具去运用。R基本数据对象向量(vector)矩阵(matri原创 2020-10-03 15:46:07 · 2022 阅读 · 0 评论 -
R语言绘图及检验——正态分布曲线
画出在-5-5区间,随机变量X服从N(0,1)的概率密 度函数曲线知识点说明: dnorm()是正态分布的概率密度函数 rnorm是生成正态分布的随机数 pnorm是分布函数> x<-seq(-5,5,length.out=100)> y<-dnorm(x,0,1)> plot(x,y,type="l")注释::生成-5到5区间,等间隔距离共100个点,dnorm()是R生成正态分布的概率密度函数,type="l"表示的是划线,最后得到的图形如下:在一幅原创 2020-09-30 21:14:21 · 41830 阅读 · 0 评论 -
R语言读取文件报错之一:incomplete final line found by readTableHeader on ‘xxxx.txt‘
错误界面:解决:在文件的最后一行加一个空行,如下所示。原创 2020-09-28 10:44:56 · 15381 阅读 · 5 评论 -
R语言读取文件报错之二:Error in read.table(“xxxx.txt“, header = TRUE) : 列的数目比列的名字要多
错误界面:如果去掉header=T,不报错,打印结果如下:然而,我的txt文件是这样的:对于这个问题,搜索有说复制到Excel中,然后再粘贴回来,但是问题没有解决。最终发现是编码的问题:加了fileEncoding = 'utf-8'之后,问题解决。调整表头:...原创 2020-09-28 10:51:57 · 24818 阅读 · 0 评论