r语言各形状编号_R语言入门第八讲：编码分类变量（factor）

最新推荐文章于 2023-11-20 18:49:46 发布

weixin_39716044

最新推荐文章于 2023-11-20 18:49:46 发布

阅读量3.3k

点赞数 1

文章标签： r语言各形状编号

本文链接：https://blog.csdn.net/weixin_39716044/article/details/111806192

版权

本文讲述了在处理大量数据时，read.table函数存在的问题及其替代方案read.csv的使用方法。通过实例展示了read.csv如何自动处理参数，方便读取CSV文件。同时，文章深入介绍了R中的因子(factor)概念，用于表示分类变量，并通过factor函数创建和调整因子水平。还探讨了如何处理有序变量和排除特定水平，以及str函数用于查看数据结构的功能。

摘要由CSDN通过智能技术生成

今天第八篇~~~~~~

在第一讲中我给大家介绍了read.table函数的使用。最近我在处理一个一百万左右的数据，发现read.table函数出了问题。我不知道是在excel转成txt时出的问题还是因为R在读取数据时出了问题------应该不是操作的问题，可能因为数据过于庞大(至少在参考书中目前应该没有一百万的例子介绍)，在转换的过程中我读不出来数据。它会提示我某某行数据不全。即使是我用了参数fill=T，也不管用，因为它会提示我行名称重复。我并不知道为什么会这样------我确信我的数据在excel表中是完整的，可是就是读不出来。(当然还有一种可能就是我的计算机不够高级，所以在转换的时候出错了------因为在运行的时候还是会卡，退出R都会等半天------师兄们说是我的电脑不行了)另外一个数据大概18万个样本量，也出现类似错误，或者少读取那么一两行，或者读取的非常混乱。于是我在想，实践就是和理论一样啊！还是要多实践才能进步。

好了，前面做了这么多铺垫，目的就是想告诉大家read.table在读取excel表格转化的制表分隔符文件时出错了。介绍一个更好用而且至少目前我成功读出数据的函数read.csv。

它的使用和read.table一模一样，参数也一模一样。不同的一点就是参数的默认值。read.table中你需要设置header=T来确定变量名，设置fill=T来使行有空缺的数据读入R中，但是在read.csv中，自动设置了这些项目，以及sep=”,”，因为excel本来就是逗号分隔。在读取之前，你需要做的就是先把excel表格转化为csv的格式：在另存为的文件类型中找到CSV(逗号分隔)(*.csv)这一选项保存就可以了。之后写代码就OK：

> setwd("E:/Rstore/")

> wq=read.csv("wq.csv")

> wq

A B C D

1 12 65 78 98

2 56 89 87 78

3 78 87 56 98

4 98 89 24 56

5 78 87 87 12

6 96 89 33 45

7 23 78 69 65

8 23 98 82 86

9 65 87 12 45

可以看到，什么都没有设置，wq文件就被读出来了，很方便。read.table的所有参数都可以在这里使用。

上一讲我给大家介绍了参数stringsAsFactors。留了一个小小的疑问，就是什么是“factor”。在R中，它表示因子。说成因子可能大家不是很明白。实际上我自己也并不名明白。但是重要的仍然是运用。因子在R中起到的是分类变量的作用。这里稍微介绍几个名词。我们在统计分析中，通常都是选整体的一小部分观察单位作为数据进行分析，而不是那个“整体”。这个整体我们称为总体，