小火柴123
本人研究生毕业,一名R语言爱好者、使用者和推广者,曾用R语言发表多篇核心期刊论文。
展开
-
R语言从入门到精通之【R语言的使用】
本章介绍了R语言的基本使用方法,并提供了简单的示例,以便更好地了解R。原创 2023-07-29 11:17:15 · 1136 阅读 · 0 评论 -
R语言 地理加权随机森林(GWRFC )
随机森林可以产生高准确度的分类器,被广泛用于解决模式识别问题。然而,随机森林赋予每个决策树相同的权重,这在一定程度上降低了整个分类器的性能。该算法引入二次训练过程,提高分类正确率高目前,鲜有中文文章介绍GWRFC的技术文档,作者想使用该方法时会遇到重重困难,因此有必要利用R来建模,通过流程演示,供读者参阅。............原创 2022-08-04 18:56:47 · 4356 阅读 · 14 评论 -
R语言Logist回归
Logist回归Logistic回归又称Logistic回归分析,是一种广义的线性回归分析模型,常用于数据挖掘,疾病自动诊断,经济预测等领域。当通过一系列连续型和/或类别型预测变量来预测二值结果型变量时,Logistic回归是一个非常有用的工具。研究数据该数据集为AER包中的Affairs数据集,通过翻译可以发现该数据为“婚外情数据”,取自于1969年《今日心理》所做的一个非常有代表性的调查,变量名称解释如下:affairs:一年以来婚外私通的频率gender: 性别age:年龄yearsm原创 2020-07-14 17:15:11 · 2055 阅读 · 1 评论 -
R爬虫常用的包与用法
1. xml2用于解析xml报表(parse XML)使用简单、一致的接口处理XML文件。构建在’libxml2’ C库之上。xml2包是到libxml2的绑定,这使得使用r中的HTML和XML很容易。这个API多少受到了jQuery的启发。Usage如下:library("xml2")x <- read_xml("<foo> <bar> text <baz/> </bar> </foo>")xxml_name(x)xml_c原创 2020-05-17 16:33:17 · 1118 阅读 · 3 评论 -
R_文字识别(OCR)
本文介绍利用tesseract包对文字进行识别当有大批量的图片文字需要转换成文字时,该方法提供了高效的解决方案,不仅支持中英文图片识别,还支持pdf版本识别,是不是功能很强大,话不多说,直接写代码吧:install.packages("tesseract") #安装包library(tesseract)library(askpass) #与tesseract包结合支持PDF文字识别setwd("E:\\R_study\\文字识别") #设置工作空间 #添加中文识别数据库tesseract_d原创 2020-05-18 10:07:39 · 8843 阅读 · 5 评论 -
地理加权回归R语言实例
目录数据准备加载需要的R包导入空间数据空间自相关分析空间邻域面数据空间邻域点数据空间邻域全局空间自相关局部空间自相关空间回归分析线性回归分析地理加权回归经典的线性回归模型是建立在最小二乘法 (OLS模型) 基础上对参数进行“平均”或“全局”估计。如果自变量为空间数据,且自变量间存在空间自相关性,传统回归模型(OLS模型)残差项独立的假设将无法满足。地理加权回归(GWR)模型能够反映参数在不同空间的空间非平稳性,使变量间的关系可以随空间位置的变化而变化,其结果更符合客观实际,能反映局部情况。杨晴青,刘倩原创 2020-08-12 11:33:01 · 8033 阅读 · 17 评论 -
泊松回归R语言实例
泊松回归当通过一系列连续型和/或类别型变量来预测计数型结果变量时,泊松回归是一个非常有用的工具。泊松回归(Poisson regression)是用来为计数资料和列联表建模的一种回归分析。泊松回归假设反应变量Y是泊松分布,并假设它期望值的对数可被未知参数的线性组合建模。泊松回归模型有时(特别是当用作列联表模型时)又被称作对数-线性模型。该模型在地理学中被广泛应用,如Wu、张华和贺灿飞运用泊松模型分别研究了外资企业在广州和北京城市内部区位选择。以下文献列举了泊松回归在地理学中的应用:[1] Wu F.原创 2020-07-29 21:37:33 · 6575 阅读 · 4 评论 -
利用R语言OLS回归分析
回归分析是统计学的核心问题,通常用来用一个或多个解释变量来预测相应变量,有效的回归是一个交互的、整体的、多步骤的过程,而不仅仅是一个技巧OLS回归为了能够恰当地解释OLS模型的系数,数据必须妈祖以下假设: 正态性,即对于固定的自变量值,因变量值呈正态分布 独立性,因变量值之间相互独立 线性, 因变量与自变量之间线性相关 同方差性,因变量的方差不随自变量的水平不同而变化如果违背上述假设,统计检验结果或所得的置信区间很可能就不精确了简单线性回归数据准备提取鸢尾花数据中的山鸢尾数据作为本原创 2020-06-28 10:19:14 · 5612 阅读 · 1 评论 -
R语言模糊匹配
模糊匹配是指根据名词中字符的相似特征,将两个相似的名词进行匹配,以获取另一个表中对应名词的属性数据。相同名词之间的匹配可以参考以前的一篇文章(利用R解决常见的数据匹配问题),但是现实中,由于数据来源不同,同一对象所表达的名称不同,但两个名称之间仍有一定的相似性,本文利用分词、投票的原理,将两个表格中相似程度最高的两个名词进行匹配。...原创 2020-11-13 11:10:36 · 4708 阅读 · 1 评论 -
随机森林_R代码及用法
随机森林(Random Forests)简介Nilsson在1965年提出:由多位专家组合而成,按一些特定的方式(如投票法,权重法)整合各位专家的意见进行决策,其得到的结果会比只有单个专家的效果更好。由于每位专家的擅长之处不同,因此通过组合的机制可以让专家之间彼此互补,得到更好的结果。随机森林(Random Forests)属于套袋法的一种,是基于决策树所建立的,结合多个决策树的预测结果,而每棵树都是根据随机森林的随机向量的值所建立的。随机森林在影响因素探讨上,现有研究表明,随机森林不需要估计一般回归原创 2020-06-20 16:33:39 · 8175 阅读 · 6 评论 -
利用R处理复杂表格1
复杂表格处理之多个表格数据提取至一个表格有时我们会遇到这样的数据(如下图),即一个Excel表格中镶嵌了多个表格,需要提取其中的部分指标,如果数据量非常大,R提供了便捷的解决方案,代码如下:> #设置工作空间> setwd("F:\\affair")> #读取数据> shandong <- read.csv("山东省.csv")> #加载dolyr函数包,利用此包过滤数据> library(dplyr)> #查看数据> head(sh原创 2020-06-06 09:54:10 · 738 阅读 · 1 评论 -
利用R解决常见的数据匹配问题
数据匹配问题有时我们需要将两个表之间根据某个字段的名称进行匹配,如果数据量达到万级单位,R提供了高效的解决方案,下面以成绩表作为示例> ###数据匹配问题> #创建成绩表> name <- c("张三","李四","王五","小明","张华","李然","马涛","魏然")> chinese <- c(88,55,56,89,58,65,75,56)> english <- c(89,48,57,78,29,68,89,64)> cj_da原创 2020-06-03 10:16:15 · 1860 阅读 · 6 评论 -
Pearson相关系数R代码实现
Pearson相关系数(Pearson Correlation Coefficient)Pearson’s r,称为皮尔逊相关系数(Pearson correlation coefficient),用来反映两个随机变量之间的线性相关程度。要理解皮尔逊相关系数,首先要理解协方差(Covariance)。协方差可以反映两个随机变量之间的关系,如果一个变量跟随着另一个变量一起变大或者变小,那么这两个变量的协方差就是正值,就表示这两个变量之间呈正相关关系,反之相反。如果协方差的值是个很大的正数,我们可以得到两原创 2020-05-14 20:34:11 · 16125 阅读 · 1 评论 -
R语言基础(数据类型,运算符,数据整理,管道操作)
基础数据类型R语言中的数据类型包括逻辑型(logical)、数值型(numeric)、整数型(integer)、字符型(character)、复数型(complex)和原始类型(raw)。结构体对象数据类型R的结构数据类型包括向量、列表、二维矩阵、三维矩阵、因子和数据框,其创建方式和元素访问代码如下表:类别创建方式元素访问向量(vector)c( )v[index...原创 2020-04-10 21:45:23 · 1094 阅读 · 5 评论 -
R软件的下载与更新
R学习开篇本人一枚地理学在读研究生,一次偶然的机会接触R,便对R产生了浓烈的兴趣,学习R有半载时间,但并非专业人才,没有形成系统的学习,一些代码总是学了又忘,忘了又学。平常看CSDN博主大神的文章也学了不少知识,俗话说好记性不如烂笔头,CSDN是个很好的平台,便萌生出将自己的学习整理成笔记,便于自己将来复习之用,当然如果你刚接触R,咱们可以共同学习,也欢迎各大神的批评指正。R简介R语言主要...原创 2020-04-09 17:28:45 · 1327 阅读 · 2 评论