博客专栏  >  综合   >  R的数据操作与清洗

R的数据操作与清洗

专门针对R语言的数据操作与数据清洗环节,提供一些操作上的小技巧以及前沿尝试。

关注
18 已关注
26篇博文
  • R语言自动化报告格式——knitr

    R语言自动化报告格式——knitr 一、背景 在R的世界里,凡是提到自动化报告,很多人就会想到Sweave,它已经诞生十几年了。它的主要设计思想来自于文学化编程(Literate Programmin...

    2015-08-12 19:22
    1594
  • R语言数据集合并、数据增减、不等长合并

    一、数据合并 1、merge()函数 最常用merge()函数,但是这个函数使用时候这两种情况需要注意: 1、merge(a,b),纯粹地把两个数据集合在一起,没有沟通a、b数据集的by,这样出现的数...

    2016-02-16 21:51
    11185
  • R语言与格式、日期格式、格式转化

    R语言的基础包中提供了两种类型的时间数据,一类是Date日期数据,它不包括时间和时区信息,另一类是POSIXct/POSIXlt类型数据,其中包括了日期、时间和时区信息。一般来讲,R语言中建立时序数据...

    2016-02-16 22:12
    17167
  • R语言︱数据集分组、筛选(plit – apply – combine模式、dplyr、data.table)

    R语言︱数据集分组、排序 一、日期分组 1、关于时间的包都有很多很好的日期分组应用。 2、cut()函数 cut(x, n):将连续型变量x分割为有着n个水平的因子 cut(x, brea...

    2016-02-18 21:02
    8208
  • R语言︱数据分组统计函数族——apply族用法与心得

    1、apply函数 对一个数组按行或者按列进行计算,矩阵纵、横运算(sum,average等) > ma ma [,1] [,2] [,3] [,4] [1,] 1 3 ...

    2016-04-07 15:55
    2619
  • R语言︱缺失值处理

    1、缺失值由0代替 dat[is.na(dat)] 跟逻辑向量的使用很有关 y 0] -> z #表示创建一个对象z,其中的元素由向量x+1中与x中的非缺失值和正数对应的向量组成 x[...

    2016-04-08 23:37
    1355
  • R语言︱文件读入、读出一些方法罗列(批量xlsx文件、数据库、文本txt、文件夹)

    笔者寄语:批量读取目前看到有以下几种方法:xlsx包、RODBC包、批量转化成csv后读入。 xlsx包 首先尝试用R包解决。即xlsx包。 xlsx包在加载时容易遇到问题。基本都是由于java环...

    2016-04-08 23:44
    8639
  • R语言︱用excel VBA把xlsx批量转化为csv格式

    笔者寄语:批量读取目前看到有以下几种方法:xlsx包、RODBC包、批量转化成csv后读入。本章来自博客:http://www.cnblogs.com/weibaar/p/4506144.html ...

    2016-04-08 23:56
    2127
  • R语言︱文本(字符串)处理与正则表达式

    处理文本是每一种计算机语言都应该具备的功能,但不是每一种语言都侧重于处理文本。R语言是统计的语言,处理文本不是它的强项,perl语言这方面的功能比R不知要强多少倍。幸运的是R语言的可扩展能力很强,DN...

    2016-04-11 15:22
    4852
  • R语言︱非结构化数据处理神器——rlist包

    本文作者:任坤,厦门大学王亚南经济研究院金融硕士生,研究兴趣为计算统计和金融量化交易,pipeR,learnR,rlist等项目的作者。 近年来,非关系型数据逐渐获得了更广泛的关...

    2016-04-11 17:02
    2257
  • R语言︱list用法、批量读取、写出数据时的用法

    列表是一种特别的对象集合,它的元素也由序号(下标)区分,但是各元素的类型可 以是任意对象,不同元素不必是同一类型。元素本身允许是其它复杂数据类型,比如,列表 的一个元素也允许是列表。例如: > r...

    2016-04-11 17:06
    20292
  • R语言︱排序问题

    四、数据排序 1、sort(),rank(),order()函数 Sort 排序(默认升序,decreasing=T时为降序) Order 排序(默认升序...

    2016-04-18 16:25
    3731
  • R语言︱构造新序列

    1、数值构造函数rep与seq #数值构造rep与seq rep(1:4,each=2)#依次重复1:4两遍 rep(1:4,2) #注意,重复1:4两遍 seq(from=3,to=5,by=0....

    2016-04-18 20:01
    611
  • R语言︱基本函数、统计量、常用操作函数

    1、一些简单的基本统计量 #基本统计量 sum/mean/sd/min #一些基本统计量 which.min() #找出最小值的序号 2、向量 向量在循环语句中较为广泛...

    2016-04-18 20:50
    2608
  • R语言︱数据去重

    笔者寄语:unique对于一个向量管用,对于matrix、data frame那些就不管用了。(谢益辉) 查看重复的方式,有点像分类变量个数一样,unique()  或者 table()  都是很好...

    2016-04-19 10:09
    3807
  • R语言︱画图

    笔者寄语:不论画啥,你先plot准没错。 1、plot函数 ##画图 plot(x~y,xlab="",ylab="",main="",xlim=c(0,45),ylim=c(0,45),pch=...

    2016-04-19 11:18
    1442
  • R语言︱函数使用技巧(循环、if族/for、switch、repeat、ifelse、stopifnot)

    1、循环 ##循环for iris allzl=unique(iris$setosa) for (i in 1:2){ pp=iris[iris$setosa==allzl[i],] plot...

    2016-04-19 17:09
    3849
  • R语言︱分布函数与概率密度+随机数产生

    1、常见概率分布 ##正态分布 pnorm(1.96) #P(x1.96)注意与pnorm的区别 qnorm(0.975) #已知分布概率...

    2016-04-19 17:29
    1264
  • R语言︱R社区的简单解析(CRAN、CRAN Task View)

    笔者寄语:菜鸟笔者一直觉得r CRAN离我们大家很远,在网上也很难找到这个社区的全解析教程,菜鸟我早上看到一篇文章提到了这个,于是抱着学渣学习的心态去看看这个社团的磅礴、威武。 CRAN(The ...

    2016-04-20 10:24
    1116
  • R语言︱异常值检验、离群点分析、异常值处理

    笔者寄语:本文是《R语言数据分析与挖掘实战》 异常值处理一般分为以下几个步骤:异常值检测、异常值筛选、异常值处理。 其中异常值检测的方法主要有:箱型图、简单统计量(比如观察极值) 异常值处理方法主要有...

    2016-04-21 20:25
    12981

img博客搬家
img撰写博客
img专家申请
img意见反馈
img返回顶部