R语言
Claroja
这个作者很懒,什么都没留下…
展开
-
SQL在线练习
介绍一款好用的在线SQL语句练习工具,详情见下图。软件的地址是:http://sqlfiddle.com/原创 2016-12-13 09:05:48 · 16846 阅读 · 0 评论 -
R语言分类算法之朴素贝叶斯分类(Naive Bayesian Classification)
1.朴素贝叶斯分类原理解析 根据已知的先验概率P(A|B),利用贝叶斯公式P(B|A)=P(A|B)P(B)/P(A)求出后验概率P(B|A),即该样本属于某一类的概率,然后选择具有最大后验概率的类作为该样本所属的类. 也就是说,对于给出的待分类样本,求出在此样本出现条件下各个类别出现的概率,哪个最大,就认为此样本属于哪个类别. 其优势在于不怕噪声和无关变量,不足之处在于,它假设各个特征属性是原创 2017-02-15 09:46:49 · 13209 阅读 · 2 评论 -
R语言分类算法之随机森林(Random Forest)
1.原理分析: 随机森林是通过自助法(boot-strap)重采样技术,从原始训练样本集N中有放回地重复随机抽取k个样本生成新的训练集样本集合,然后根据自助样本集生成k个决策树组成的随机森林,新数据的分类结果按照决策树投票多少形成的分数而定. 通俗的理解为由许多棵决策树组成的森林,而每个样本需要经过每棵树进行预测,然后根据所有决策树的预测结果最后来确定整个随机森林的预测结果.随机原创 2017-02-16 10:32:29 · 12646 阅读 · 1 评论 -
R语言分类算法之集成学习(Bootstrap Aggregating)
1.集成学习(Bootstrap Aggregating)原理分析: Bagging是Bootstrap Aggregating的缩写,简单来说,就是通过使用boostrap抽样得到若干不同的训练集,以这些训练集分别建立模型,即得到一系列的基分类器,这些分类器由于来自不同的训练样本,他们对同一测试集的预测效果不一样.因此,Bagging算法随后对基分类器的一系列预测结果进行投票(分类问题)和平均(原创 2017-02-16 10:56:11 · 7424 阅读 · 0 评论 -
R语言聚类算法之期望最大化聚类(Expectation Maximization Algorithm)
1.原理解析: 它将数据集看作一个含有隐性变量的概率模型,并以实现模型最优化,即获取与数据本身性质最契合的聚类方式为目的,通过”反复估计”模型参数找到最优解,同时给出相应的最优类别k.而”反复估计”的过程即是EM算法的精华所在,这一过程由E-step(Expectation)和M-step(Maximization)两个步骤交替进行来实现。 2.在R语言中的应用 期望最大化聚类主要运用原创 2017-02-16 10:12:24 · 2820 阅读 · 0 评论 -
R语言聚类算法之密度聚类(Density-based Methods)
1.原理解析: 1.从数据集中选择一个未处理的样本点 2.以1为圆心,做半径为E的圆,由于圆内圈入点的个数为3,满足密度阈值Minpts,因此称点1为核心对象(黑色实心圆点),且将圈内的4个点形成一个簇,其中点1直接密度可达周围的3个灰色实心原点; 3.重复步骤2若干次,其中点1直接密度可达核心对象3,且点2密度可达点3. 4.当该过程进行到图Ⅳ,4的E邻域内仅有2个点,小雨阈值MinPts原创 2017-02-16 09:58:22 · 7228 阅读 · 1 评论 -
R语言聚类算法之系谱聚类(Hierarchical Method)
1.原理解析: 不需要先设定类别数K,这是因为它每次迭代过程仅将距离最近的两个样本/簇聚为一类,其运作过程将自然得到k=1至k=n个类别的聚类结果。 2.在R语言中的应用 系谱聚类(Hierarchical Method)主要运用到了stats包(R语言内置包)中的hclust();cutree();rect.hclust()三个函数。 hclust(d,method=”complete原创 2017-02-16 09:44:19 · 5925 阅读 · 0 评论 -
R语言聚类算法之k均值聚类(K-means)
1.线性判别原理解析: 随机选取k(预设类别数)个样本作为起始中心点,将其余样本归入相似度最高中心点所在簇(cluster),再确立当前簇中样本坐标的均值为新的中心点,一次循环迭代下去,直至所有样本所属类别不再变动. 2.在R语言中的应用 在k均值聚类中我们应用到了stats包(R语言内置包)中的kmeans函数。 kmeans(x,centers,iter.max = 10,n原创 2017-02-16 09:21:13 · 12928 阅读 · 0 评论 -
R语言聚类算法之k中心聚类(K-medoids)
1.原理解析: 针对K-均值算法易受极值影响这一缺点的改进算法.在原理上的差异在于选择个类别中心点时不取样本均值点,而在类别内选取到其余样本距离之和最小的样本为中心。 2.在R语言中的应用 k中心聚类(K-medoids)主要运用到了R语言中cluster包(R语言内置包)中的pam函数。 pam(x,k,diss=inherits(x,”dist”),metric=”euclide原创 2017-02-16 09:34:08 · 10465 阅读 · 0 评论 -
R语言高级算法之人工神经网络(Artificial Neural Network)
1.人工神经网络原理分析: 神经网络是一种运算模型,由大量的节点(或称神经元)和之间的相互连接构成,每个节点代表一种特定的输出函数,称为激励函数(activation function).每两个节点间的连接都代表一个对于通过该连接信号的加权值,称之为权重,这相当于人工神经网络的记忆.网络的输出则依网络连接方式/权重值和激励函数不同而不同. 2.在R语言中的应用 在人工神经网络(Artifici原创 2017-02-15 14:32:23 · 7107 阅读 · 0 评论 -
R语言高级算法之支持向量机(Support Vector Machine)
1.支持向量机原理解析 机器学习本质上就是一种对所研究问题真实模型的逼近,通常会假设一个近似模型,然后根据适当的原理将这个近似模型不断逼近真实模型.结构风险就是指近似模型与真实模型之间的差距. 我们可以用某些方法来逼近真实模型,最直观的想法就是使用分类器在样本数据上的分类结果与真实结果之间的差值来表示,这个差值统计上为经验风险Remp(W). 在过去的机器学习方法中,通常将经验风险最小化作为努原创 2017-02-15 13:41:41 · 4378 阅读 · 0 评论 -
R语言分类算法之距离判别(Distance Discrimination)
1.距离判别原理分析 根据待判定样本与已知类别样本之间的距离远近做出判断.根据已知类别样本信息建立距离判别函数式,再将各待判定样本的属性数据逐一代入式中计算,得到距离值,再根据此将样本判入距离值最小的类别的样本簇. K最近邻算法则是距离判别法中使用最为广泛的,他的思路是如果 一个样本在特征空间中的K个最相似/最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别. 图中3原创 2017-02-15 11:17:06 · 17836 阅读 · 5 评论 -
R语言实现分层抽样(Stratified Sampling)以iris数据集为例
1.观察数据集head(iris) 选取数据集中前6个数据,我们可以看出iris数据集一共有5个字段。dim(iris) iris数据集一共有150条数据,5个字段summary(iris) 观察各个变量的内容,可以看出前四个变量(Sepal.Length Sepal.Width Petal.Length Petal.Width)都是定量变量,而最后一个(Species)是定性变量,我们将依原创 2017-02-14 11:28:43 · 29883 阅读 · 5 评论 -
R语言分类算法之线性判别分析(Linear Discriminant Analysis)
1.费希尔(Fisher)判别原理解析 基本思想是”投影”,即高纬度空间的点向低纬度空间投影,从而简化问题的处理.在原坐标系下,空间中的点可能很难被分开,如图8-1,当类别Ⅰ和类别Ⅱ中的样本点都投影至图中的”原坐标轴”后,出现了部分样本点的”影子”重合的情况,这样就无法将分属于这两个类别的样本点区分开来;而如果使用如图8-2中的”投影轴”进行投影,所得到的”影子”就可以被”类别划分线”明显原创 2017-02-14 14:59:27 · 23941 阅读 · 7 评论 -
数据分析的一般过程
1.数据预处理 主要包括了重复值处理、缺省值处理、抽样处理、训练集和测试集处理。 2.应用模型 根据要求选择相应的数学模型进行分析。这里主要包括了分类算法,聚类算法,关联分析,回归分析4大类型的模型应用。 3.观察处理结果 在套用相应的数学模型之后会产生相应的处理结果,比如在回归分析中会产生相关系数,而关联分析中则会产生提升度等指标。 4.图形可视化 在R语言中一般使用plot函数来作原创 2017-02-13 10:07:22 · 648 阅读 · 0 评论 -
R语言读写CSV
为了保证数据的通用性(能在各种软件中传输),建议大家同意使用CSV文件俩保存数据。 逗号分隔值(Comma-Separated Values,CSV),要点有: (1)字段之间以,(英文逗号)间隔 (2)数据行之间使用\r\n分隔 R语言 读入 dataframe <- read.csv("PATH") 写出 write.csv(DATAFRAME,"PATH")原创 2016-12-19 14:24:25 · 4462 阅读 · 0 评论 -
在线编程语言模拟(Java,C,Python,R语言,Ruby,PHP,Perl,Go等)
这里给大家介绍一个可以模拟多种语言的网站,详细请参考下图。网址是:http://www.shucunwang.com/RunCode/java/原创 2016-12-13 09:17:44 · 3173 阅读 · 0 评论 -
Eclipse R语言插件 statET 安装
输入插件网址插件来源: http://download.walware.de/eclipse-4.6 选择相应插件 设置对比颜色这一步主要是为了比较不同版本的脚本,可以不设置。原创 2017-07-18 17:47:18 · 3205 阅读 · 0 评论