![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
R语言
文章平均质量分 60
自我提升与相关的学习笔记
Wency(王斯-CUEB)
博士阶段的学术小白,致力于编程技能与学术应用的提升。本博客记录Python、R、Matlab等语言学习心得,分享编程BUG解决策略及电脑使用技巧,助力学术研究。期待与您共同进步。
展开
-
带象限且带地名文本标记的散点图怎么画?-基于R语言实现
需求在计量经济中,我们常常要画一些省域的数据图像,类似与这总散点图。基于R语言的代码实现# 1.导入数据df = read.table('clipboard',header = 1) # 导入数据df_matrix = as.matrix(df) #转化为矩阵df_distance = dist(df_matrix) # 求距离阵library(MASS) # 载入MASS包,因为要使用isoMDS()函数fit = isoMDS(df_distance,k=2)fitx = fit$原创 2022-03-28 20:31:11 · 894 阅读 · 0 评论 -
《R语言与数据挖掘》⑥-⑦分类与预测建模【分类算法评价】
模型预测效果评价,通常用相对绝对误差、平均绝对误差、根均方差、相对平方根误差等指标来衡量一般回归型模型评价绝对误差Absolute Error相对误差Relative Error平均相对误差Mean Absolute Error【MAE】均方误差Mean Squared Error【MSE】均方根误差Root Mean Squared Error 【RMSE】一般分类型模型评价TP(True Positives)是指正确的肯定表示正确肯定的分类数;TN(True Negativ原创 2021-12-24 01:08:49 · 718 阅读 · 0 评论 -
《R语言与数据挖掘》⑥-⑥分类与预测建模【其他分类预测算法】
其他分类算法如下LAD模型# lda模型setwd("F:\\桌面") # 设置工作空间Data <- read.csv("./test.txt",sep = '\t') # 读入数据Data[, "MN"] <- as.factor(Data[, "MN"]) # 将目标变量转换成因子型set.seed(1234) # 设置随机种子# 数据集随机抽70%定义为训练数据集,30%为测试数据集ind <- sample(2, nrow(Data), replace原创 2021-12-24 01:08:59 · 964 阅读 · 0 评论 -
《R语言与数据挖掘》⑥-⑤分类与预测建模【朴素贝叶斯分类】
算法思路:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别。naiveBayes()函数# 朴素贝叶斯分类算法setwd("F:\\桌面") # 设置工作空间Data <- read.csv("./test.txt",sep = '\t') # 读入数据Data[, "MN"] <- as.factor(Data[, "MN"]) # 将目标变量转换成因子型set.seed(1234) # 设置随机种子# 数据集随机原创 2021-12-23 20:57:10 · 757 阅读 · 0 评论 -
《R语言与数据挖掘》⑥-④分类与预测建模【KNN算法】
KNN 算法即K最近邻(k-Nearest Neighbor)分类算法,是一个理论上比较成熟的方法。kknn()函数knn()函数train()函数# KNN算法setwd("F:\\桌面") # 设置工作空间Data <- read.csv("./test.txt",sep = '\t') # 读入数据Data[, "MN"] <- as.factor(Data[, "MN"]) # 将目标变量转换成因子型set.seed(1234) # 设置随机种子# 数原创 2021-12-23 20:50:44 · 1437 阅读 · 0 评论 -
《R语言与数据挖掘》①R语言入门基本必备代码
设置工作目录setwd(“F:/R”) # 这里区分"/“与”"例子 “F:\R"与"F:/R"是有区别的,一般"F:/R”=“F:\R”获取当前工作目录getwd() # 会返回当前的工作目录路径清除工作空间中的内存变量rm(list = ls()) # 类似于MATLAB中的clear了解plot函数help(plot) # 查看帮助也等价于?plot运行plot函数示例代码require(stats) # for lowess, rpois, rnormplot(cars)l原创 2021-12-07 17:24:32 · 1872 阅读 · 0 评论 -
《R语言与数据挖掘》②基本数据类型和数据读取
数据类型的判别及转换a <- 1:4 # 创建一个1:4的序列x = c(a,NA) # 构建一个对象is.na(x) # 判别是否存在缺失值class(a)# 查看数据类型is.numeric(a) # 判别是否是数值型数据is.vector(a) # 判别是否是向量型数据is.character(a) # 判别是否是字符型数据is.logical(a) # 判别是否是字符型数据is.array(a) # 判别是否是布尔型数据is.data.frame(a) # 判别是否是数据原创 2021-12-07 22:14:49 · 1040 阅读 · 1 评论 -
《R语言与数据挖掘》③R语言对象的一般操作,数理统计命令,控制语句
书籍:《R语言与数据挖掘》作者:张良均出版社:机械工业出版社ISBN:9787111540526本书由北京华章图文信息有限公司授权杭州云悦读网络有限公司电子版制作与发行版权所有·侵权必究对象的一般操作1.交互式修改数据2.变量名3.sort()、rank()、order()函数的基本操作# 示例:利用交互式编辑器修改score数据集中变量p1的名称为student# 交互式编辑器修改变量名score <- data.frame( ID = c(1,2,3,4), Ch原创 2021-12-10 00:13:46 · 835 阅读 · 0 评论 -
《R语言与数据挖掘》③-①使用R语言进行中文分词
RWordseg包文本分词library(rJava)library(Rwordseg)文本分词text = “今天天气真好呀,好想出去玩”segmentCN(text) # 对"雷克萨斯品牌"进行分词insertWords(c(“气”)) # 导入词汇segmentCN(text) # 导入词汇后再次分词deleteWords(c(“气”)) # 删除词汇segmentCN(text) # 删除词汇后再次分词载入词典并进行文本分词词典下载链接:http://pinyin.原创 2021-12-13 15:08:09 · 1868 阅读 · 0 评论 -
《R语言与数据挖掘》④R语言数据可视化最全的总结
书籍:《R语言与数据挖掘》作者:张良均出版社:机械工业出版社ISBN:9787111540526本书由北京华章图文信息有限公司授权杭州云悦读网络有限公司电子版制作与发行版权所有·侵权必究原创 2021-12-20 16:33:24 · 1222 阅读 · 0 评论 -
《R语言与数据挖掘》⑤高级绘图工具【lattice包】【ggplot2】【交互式】
书籍:《R语言与数据挖掘》作者:张良均出版社:机械工业出版社ISBN:9787111540526本书由北京华章图文信息有限公司授权杭州云悦读网络有限公司电子版制作与发行版权所有·侵权必究lattice包lattice包的图形参数可通过trellis.par.get()函数来获取,并用trellis.par.set()函数来修改。show.settings()函数可展示当前的图形参数设置情况。lattice包可以通过添加条件变量,创建出各个水平下的面板。一般情况下,条件变量是因子型变量,若条原创 2021-12-23 16:38:54 · 2280 阅读 · 1 评论 -
《R语言与数据挖掘》⑥-③分类与预测建模【决策树】
人工神经网络(ANN),简称神经网络,是一种模仿生物神经网络的结构和功能的数学模型或计算模型。# BP神经网络setwd("F:\\桌面") # 设置工作空间Data <- read.csv("./test.txt",sep = '\t') # 读入数据Data[, "MN"] <- as.factor(Data[, "MN"]) # 将目标变量转换成因子型set.seed(1234) # 设置随机种子# 数据集随机抽70%定义为训练数据集,30%为测试数据集ind &l原创 2021-12-23 20:42:11 · 288 阅读 · 0 评论 -
《R语言与数据挖掘》⑥-②分类与预测建模【决策树】
决策树是一树状结构,它的每一个叶节点对应着一个分类,非叶节点对应着在某个属性上的划分,根据样本在该属性上的不同取值将其划分成若干个子集。对于非纯的叶节点,多数类的标号给出到达这个节点的样本所属的类。构造决策树的核心问题是在每一步如何选择适当的属性对样本做拆分。对一个分类问题,从已知类标记的训练样本中学习并构造出决策树是一个自上而下,分而治之的过程。常见的三类决策树:C4.5算法在R语言中,实现C4.5决策树建模是非常方便的,实现该算法主要是借助party包中的ctree()函数。# C4.5决策原创 2021-12-23 20:37:28 · 1268 阅读 · 0 评论 -
《R语言与数据挖掘》⑥-①分类与预测建模【回归分析】
回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。lm()函数说明lm(formula, data, subset, weights, na.action, method = "qr", model = TRUE, x = FALSE, y = FALSE, qr = TRUE, singular.ok = TRUE, contrasts = NULL, offset, ...)其中, formula指要拟合的模型形式, data是一个数据框,包含用于拟合模型的数原创 2021-12-23 20:03:51 · 1434 阅读 · 0 评论 -
《R语言与数据挖掘》⑦聚类分析建模
书籍:《R语言与数据挖掘》作者:张良均出版社:机械工业出版社ISBN:9787111540526本书由北京华章图文信息有限公司授权杭州云悦读网络有限公司电子版制作与发行版权所有·侵权必究写在前面目前主流的聚类算法主要分为以下几种K-Means K-均值聚类K-Medoids K-中心聚类DBSSCAN Density-based Spatial Clustering of Application with Noise 密度聚类HC Hierarchical Clustering 层原创 2021-12-23 18:10:09 · 763 阅读 · 0 评论 -
《R语言与数据挖掘》⑧关联规则分析
写在前面简言之,关联分析就是通过量化后的数字描述物品之间的影响,以及有多大的一些影响关系。常见的算法如下:Apriori关联规则基本的术语解释:事务(Transaction):简单理解,一个人购物是的一张小票里面的所有物品组成的集合。项(Item):小票里面的商品A项集(Itemset):多个商品组成的集合,和上面不同,你细细品。这里就衍生出,1-项集、2-项集、k-项集等等。符号:X => Y X称为前项,那么Y称为后项。支持度(Support):简言之,概率或者频率。Sup原创 2021-12-23 17:16:20 · 2776 阅读 · 1 评论 -
《R语言与数据挖掘》⑨智能推荐算法
写在前面,目前的推荐算法重要分为四类基于关联规则的推荐算法基于物品的协同过滤算法基于用户的协同过滤算法基于内容的推荐算法协同过滤一个重要的环节就是如何选择合适的相似度计算方法,常用的两种相似度计算方法包括皮尔逊相关系数和余弦相似度等。皮尔逊相关系数余弦相似度基于R语言的实现主要依赖recommenderlabrecommenderlab包主要处理的对象为ratingMatrix。ratingMatrix有两种:realRatingMatrix和 binaryRatingMatr原创 2021-12-23 17:29:55 · 2012 阅读 · 0 评论 -
《R语言与数据挖掘》⑩基于R语言的时间序列分析预测
#清理环境,加载包rm(list=ls())library(forecast)library(tseries)# as.ts()与is.ts()Data <- read.table("F:\\桌面\\temp/arima_data.txt", header = TRUE)[, 2]is.ts(Data)video1 <- ts(Data)is.ts(video1)video2 <- as.ts(Data)is.ts(video2)# 示例:时序图plot.t原创 2021-12-08 18:11:39 · 2057 阅读 · 1 评论 -
R语言的apply、lapply、sapply、tapply函数总结
apply()解释apply()以数据帧或矩阵作为输入,并以向量、列表或数组的形式给出输出。apply()函数主要用于避免显式使用循环结构。它是所有集合中最基本的,可以在母体上使用。语法apply(X, MARGIN, FUN)x :数组或矩阵MARGIN:取1到2之间的值或范围来定义在何处应用函数MARGIN=1` :操作是对行执行的(横着)MARGIN=2` :操作是在列上执行的(竖着)MARGIN=c(1,2)`:操作是对行和列执行的FUN :告诉应用哪个函数。构建的函数如mea原创 2021-12-07 22:04:26 · 7293 阅读 · 0 评论 -
【R语言】典型相关分析,自写函数计算相关系数
简单相关系数简单相关系数的代码实现1.XY都是随机变量,地位对称2.相关系数只反映两变量之间线性相关的程度,不能说明其非线性相关关系。3.虽能度量相关关系,但是不能度量变量间的因果关系公式library('charlatan') # 造假数据的包# 创建10个名name = ch_name(10)# 创建10个均分分布的数据 看看直方图# 产生数据set.seed(1) # 保持每次产生数据已知x1 = ch_unif(10)hist(x1,breaks = 4)x2 = c原创 2021-06-09 00:48:49 · 4464 阅读 · 1 评论 -
这是最全面的R语言+统计学习的资源整理【系统全面】
开篇先感谢原文:coffeeCat【1】转载于:Coffee学生物统计的地方【2】1.个人主页、博客、社区、论坛北大李东风[3] 中科大张伟平[4]谢益辉(人称谢大大)[5]:统计之都论坛[6]创始人(与之有关的统计之都[7])统计学资源链接大全[8]:知名 统计系、统计学会、统计组织、统计软件、统计期刊的官网(该老师的主页[9])斯坦福大学统计系:Trevor Hastie[10]、Jerome H. Friedman[11]、Rob Tibshirani[12]顾凯[1转载 2021-06-03 00:44:59 · 3095 阅读 · 1 评论 -
R语言生成md的测试文档
title: “test”author: “wangsi”date: “2020年11月4日”output: html_documentknitr::opts_chunk$set(echo = TRUE)R MarkdownThis is an R Markdown document. Markdown is a simple formatting syntax for authoring HTML, PDF, and MS Word documents. For more details .原创 2020-11-04 23:19:39 · 487 阅读 · 0 评论 -
R语言基础复习思维导图
file:///C:/Users/kingS/Downloads/R%E8%AF%AD%E8%A8%80%E5%A4%8D%E4%B9%A0.svgR语言复习基本操作帮助? or help加注释#ctrl + shift + C在Rstudio中多行一键注释logical载入包library(包名)require(包名)下载安装包install.packages(‘包名’)工作目录getwd() or setwd(‘D://data’)查看变量objects()如果要删.原创 2020-10-03 23:37:16 · 1053 阅读 · 0 评论 -
package ‘***’ is not available for this version of R常见失败解决方案
前言使用R的过程中出现各种报错都是家常便饭图片,每次R都会给出错误提示信息,却经常让人摸不着头脑。install.packages()可以说是大家使用最多的函数之一,安装R包少不了。当你使用install.packages()安装R包后出现Error或Warning的提示时,意味着你想安装的R包因为某些原因无法从CRAN上下载、安装。......原创 2021-05-12 20:22:37 · 63929 阅读 · 2 评论 -
基于R语言的层次聚类分析-【案例实操】-基本操作,一看就会
基本思想每一个样本作为一类按照某一种方法进行距离度量,比如“欧氏距离”距离最短划为1类重复步骤2和3,每次减少一类,直至所有样本合成1类案例数据这里用鸢尾花数据集作为实验数据data(iris)# 载入数据plot(iris)# 画图**注意:一般聚类前要将数据进行标准化。**消除量纲影响irisScaled <- scale(iris[, -5])# 数据标准化具体实验步骤计算样本之间的距离d <- dist(irisScaled[, 1:4])fitH原创 2021-01-12 00:37:20 · 7210 阅读 · 0 评论 -
R语言期末试题【二期补充】-重庆工商大学-统计学课程
1、编写函数计算11+22+⋯+nn1^{1}+2^{2}+\cdots+n^{n}11+22+⋯+nn#####第一题############fun1 = function(x,n){ s = 0 for (i in 0:n) { s = s + x^i } message('前n项目和为:',s)}fun1(2,4) # 调用函数2、编写函数计算1到50的和,分别用for循环和while循环######第二题################# for 循环fu原创 2020-12-30 02:02:40 · 3875 阅读 · 0 评论 -
统计学中数据清洗 (入门-基本操作)-机器学习数据清洗的基础
数据清洗这里的数据清洗,实际上是数据的预处理,在我们获取一切的生活数据,总是不能按我们的思维模式去得到,要么数据指标存在年份的缺失,要么就是关于统计指标口径不一致,还有就是出现一些我们意想不到的异常值,这时,我们是删除数据呢?还是静静的思考,为什么会出现这种情况。在本专业(经济统计中)数据清洗往往是对缺失值对处理以及对统计口径对调整。文章目录数据清洗缺失值处理均值法无条件有条件注意平台法热平台冷平台临近插补比率法回归法EM迭代法预测法口径调整处理办法这里需要数据总结缺失值处理缺失值是在宏观数原创 2020-12-28 09:39:26 · 1597 阅读 · 0 评论 -
R语言期末试题-重庆工商大学-统计学课程
1、编写函数计算 h(x,n)=1+x+x∧2+⋯⋯+x∧nh(x, n)=1+x+x^{\wedge} 2+\cdots \cdots+x^{\wedge} nh(x,n)=1+x+x∧2+⋯⋯+x∧n#####第一题############fun1 = function(x,n){ s = 0 for (i in 0:n) { s = s + x^i } message('前n项目和为:',s)}fun1(2,4) # 调用函数2、编写函数计算15,21,39,4原创 2020-12-28 09:09:54 · 4367 阅读 · 5 评论 -
蒙特卡洛数值模拟-计算定积分的两种方法
原理法1(撒米法)计算积分1.他的逻辑原理其实很简单,对于函数图像围成的面积,我们总可以用一个矩形覆盖住,然后在上面撒下一把米(随机抽样),然后去数,那些米粒落在了函数图像围成的面积内,将得到的数据除以米粒的总数,得到一个积分区域面积与矩形面积的比例。这时,矩形的面积好算,将其乘上比例,就得到了积分区域面积。法2(数学期望)计算积分1.数学推导代码# 基于蒙特卡洛求定积分的两种方法# 法1decisionCondition = function(a){ a[2]-log(a[1])}原创 2020-12-07 14:11:16 · 3322 阅读 · 0 评论 -
自编R计算MSE(均方误差)
基本原理1.生成关于x1~N(5,3),x2~N(100,10),error~N(0,1)2.自己定一个实际对线性回归模型,并计算得到真实的yy = 1.5+0.8x1+1.8x2+error3.对x1,x2 进行线性拟合,当然这里也可以自写函数用最小二乘法原理,进行参数对估计4.提取的每一个beta1,beta25.计算他的均方误差,计算公式代码k = 100000 # 定义实验次数beta_x1 = c() # 定义空列beta_x2 = c()for (i in 1:k) {原创 2020-12-07 11:06:07 · 10979 阅读 · 0 评论 -
R语言内置数据集总结(方便查阅-无聊转载的一天)
R语言内置数据集总结提示:R语言中内置了很多数据集,有使用不同算法,不同统计模型的,我们在学习时可以只有自由调用,这样就省去了我们去找数据的时间,特此将一些数据集整理,方便日后查阅。文章目录R语言内置数据集总结常用命令分类整理向量因子矩阵、数组类矩阵数据框列表类数据框时间序列数据常用命令data() #列出已载入的包中的所有数据集。data(package = .packages(all.available = TRUE)) #列出已安装的包中的所有数据集。分类整理向量euro转载 2020-12-02 13:04:09 · 4920 阅读 · 0 评论 -
自编函数做t检验
t_test_fun = function(data,alph=0.05){ # 1.计算基本量 # 1.1向量a,b长度 n1 = length(a) n2 = length(b) # 1.2计算a,b均值 a_bar = mean(a) b_bar = mean(b) # 计算a,b方差 var1 = var(a) var2 = var(b) # 求合并方差(方差齐性) concat_vars = (var1*(n1-1)+var2*(n2-1)).原创 2020-11-11 08:35:59 · 466 阅读 · 0 评论 -
R语言最基本的-(含基本正则化表达)/字符处理函数
字符串处理函数Num = c(310,345,232,543,321,455)grep('^3',Num,fixed = TRUE,fixed=FALSE) # 这里与python不同# grep的参数请参见说明grep('^3',Num,fixed = FALSE,value = TRUE)# 如果是正则,^表示以什么开头grep('4$',Num,value=TRUE) # $表示以什么结尾grep('3.2',Num,value = TRUE) # .表示以什么开头以什么结尾gre原创 2020-11-04 23:09:49 · 1258 阅读 · 0 评论 -
R语言数据处理最基本的函数(数学+统计+概率分布)以及实际小案例
常见的数学函数数学函数的功能和强大,应用也比较广泛下面列出的一部分,要记!!!要熟练!!!常见的统计函数概率分布函数概率函数通常是用来模拟生成一些具有分布特点的数据例如:1、 norm最常见,正态分布函数2、 chisq较为常见3、 unif均匀分布4、wilcox最非参数统计时,秩和检验。mvnorm生成多元正态随机数案例x = pretty(c(-3,3),30)y = dnorm(x)plot(x,y,type = 'l',xlab='正态分布',ylab='密原创 2020-11-04 21:53:40 · 2345 阅读 · 0 评论 -
【转载】R语言dplyr包学习笔记(吐血整理宇宙无敌详细版)
出处:AI入门学习dplyr包介绍dplyr包主要用于数据清洗和整理,主要功能有:行选择、列选择、统计汇总、窗口函数、数据框交集等是非常高效、友好的数据处理包,学清楚了,基本上数据能随意玩弄,对的,随意玩弄,简直大大提高数据处理及分析效率。我以为,该包是数据分析必学包之一。学习过程需要大量试验,领悟其中设计的精妙之处。欢迎交流#包安装与加载install.packages("dplyr")library(dplyr)#调用mtcars数据&数据集介绍data(mtcars)转载 2020-11-03 22:42:10 · 5159 阅读 · 0 评论 -
R语言数据分析-练习题【学习总结20201030】[1-20]
前言1-20题1.创建数据框一般用data.frame,Python中也是,只不过是pd.DataFrame#######R语言数据分析################1.创建数据框##df <- data.frame( "grammer" = c("Python","C","Java","GO",NA,"SQL","PHP","Python"), "score" = c(1,2,NA,4,5,6,7,10))#1.1 第二种library(tibble)df <- t原创 2020-10-30 13:22:34 · 3421 阅读 · 0 评论 -
RStudio快捷键
转载文章 -> 【简书】—[茶苯海]传送门控制台ConsoleDescription Windows & Linux Mac将光标定位到控制台 Ctrl+2 Ctrl+2清空控制台 Ctrl+L Command+L将光标定位到行首 Home Command+Left将光标定位到行末 End Command+Right在历史命令中导航 Up/Down Up/Down弹出历史命令框 Ctrl+Up Command+Up 中断当前命令的执行转载 2020-10-27 13:31:22 · 864 阅读 · 0 评论 -
R语言学习笔记-蒙特卡洛模拟方法
前言二十世纪最伟大的10大算法之一,数学家冯·诺伊曼用驰名世界的赌城—摩纳哥的Monte Carlo—来命名这种方法,为它蒙上了一层神秘色彩。所谓蒙特卡洛方法,简单地说就是将问题转化成一个概率问题.并用计算机模拟产生一堆随机数据,之后就是对随机数据的统计工作了!蒙特卡洛模拟方法=建立概率模型+计算机模拟+数理统计实例分析1.应用蒙特卡洛模拟方法计算Π值1)基本原理P=圆的面积/正方形的面积P=Π/42)用计算机模拟,产生0—1之间的二维的随机数在正方形的内部产生.原创 2020-10-25 15:19:18 · 11797 阅读 · 0 评论