r语言各形状编号_R语言入门第八讲:编码分类变量(factor)

今天第八篇~~~~~~

在第一讲中我给大家介绍了read.table函数的使用。最近我在处理一个一百万左右的数据,发现read.table函数出了问题。我不知道是在excel转成txt时出的问题还是因为R在读取数据时出了问题------应该不是操作的问题,可能因为数据过于庞大(至少在参考书中目前应该没有一百万的例子介绍),在转换的过程中我读不出来数据。它会提示我某某行数据不全。即使是我用了参数fill=T,也不管用,因为它会提示我行名称重复。我并不知道为什么会这样------我确信我的数据在excel表中是完整的,可是就是读不出来。(当然还有一种可能就是我的计算机不够高级,所以在转换的时候出错了------因为在运行的时候还是会卡,退出R都会等半天------师兄们说是我的电脑不行了)另外一个数据大概18万个样本量,也出现类似错误,或者少读取那么一两行,或者读取的非常混乱。于是我在想,实践就是和理论一样啊!还是要多实践才能进步。

好了,前面做了这么多铺垫,目的就是想告诉大家read.table在读取excel表格转化的制表分隔符文件时出错了。介绍一个更好用而且至少目前我成功读出数据的函数read.csv。

它的使用和read.table一模一样,参数也一模一样。不同的一点就是参数的默认值。read.table中你需要设置header=T来确定变量名,设置fill=T来使行有空缺的数据读入R中,但是在read.csv中,自动设置了这些项目,以及sep=”,”,因为excel本来就是逗号分隔。在读取之前,你需要做的就是先把excel表格转化为csv的格式:在另存为的文件类型中找到CSV(逗号分隔)(*.csv)这一选项保存就可以了。之后写代码就OK:

> setwd("E:/Rstore/")

> wq=read.csv("wq.csv")

> wq

A  B  C  D

1 12 65 78 98

2 56 89 87 78

3 78 87 56 98

4 98 89 24 56

5 78 87 87 12

6 96 89 33 45

7 23 78 69 65

8 23 98 82 86

9 65 87 12 45

可以看到,什么都没有设置,wq文件就被读出来了,很方便。read.table的所有参数都可以在这里使用。

上一讲我给大家介绍了参数stringsAsFactors。留了一个小小的疑问,就是什么是“factor”。在R中,它表示因子。说成因子可能大家不是很明白。实际上我自己也并不名明白。但是重要的仍然是运用。因子在R中起到的是分类变量的作用。这里稍微介绍几个名词。我们在统计分析中,通常都是选整体的一小部分观察单位作为数据进行分析,而不是那个“整体”。这个整体我们称为总体,

  • 1
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值