R语言把某些数替换成na_R语言进行数据清洗

最新推荐文章于 2024-03-13 14:35:33 发布

VIP文章 weixin_39551103

最新推荐文章于 2024-03-13 14:35:33 发布

阅读量5.1k

点赞数

文章标签： R语言把某些数替换成na r语言读取excel数据

微信公众号：Python商务实践
博客网址：www.liupu.top
任何问题和建议，请在博客评论区或公众号留言
最近更新时间：2018-9-26

写在前面

上次更新后已经有将近三个月没有进行文章更新，所以这里要向那些一直关注小编文章的朋友致以最诚挚的抱歉。因为在这三个月中一些琐事以及工作方面的事情一直缠绕着我，使得我总是没有精力或者心情去及时进行文章更新，再次向喜欢小编文章的各位朋友进行道歉！这也让小编感觉到一个人坚持做一件事情是多么的困难。我一直觉得自己还算是具有一种比较能够坚持的性格，然而实践证明，坚持总是说着容易。在反思了这段时间之后，小编决定在接下来的文章更新中尽量做到每周都有更新，不过每周更新的频率将有所调整，小编会尽量做到每周两更，然而考虑到工作人士的身不由己，一周一更也将成为一种常态，但是小编会保证每周都至少会有一篇文章更新，以感激你们这群长期支持小编的朋友。可能太久没有写文章了，所以一时间有点话痨，下面开始介绍一下本期的主题。本期文章中，小编将和大家介绍一下怎么使用R语言去进行数据的清洗以及规整。因为任何形式的数据分析都离不开数据清洗，可以说数据清洗整理占据了整个数据分析工作时间的80%，因此小编一直以来就极为重视这一点。长久以来小编一直使用Python和R进行数据分析，所以小编不可能只介绍R语言的数据清洗过程，也会介绍怎么使用Python去进行同类型的数据清洗工作，因为数据清洗真的比较重要，所以这期文章只介绍怎么使用R语言去进行数据清洗，下期文章介绍Python的处理过程。而本文选择进行清洗的数据来源于美国的UFO观察数据，考虑到数据将有80M的存量，这里就不将数据上传了，需要的朋友请给小编发私信或者留言，小编会及时发给你们！好了，这里就不再多说废话了，下面正式进入主题。

先观察一下数据吧

正如前面小编说过的一样，数据集是一份存量为80M的固定分割文本文件(也就是tsv格式文件)，因此使用记事本或者其他程序打开文件真的会需要一点时间(尤其是配置比较差的电脑更是如此)，好在我们并没有打算浏览全部数据，我们仅仅需要观察一下数据集的构成与特征，所以这个时候直接使用命令行工具会显得更加方便快捷。如果大家看过小编之前的文章，那么就应该知道怎么去打开命令行工具(windows下存在两种命令行工具：cmd和powershell，打开的方式类似，win+R后输入cmd或者powershell分别打开这两种形式的命令行；苹果电脑下通过command+空格键，然后输入terminal打开命令行终端)。这里小编选择windows系统下的powershell命令行工具进行介绍。在打开命令行工具后，首先将路径转移到ufo数据所在的路径，而后使用查看命令查看文件即可。在命令行窗口中输入以下代码完成查看。

# 改变路径到文件所在路径，小编的文件存放在桌面，所以这里改变路径到桌面cd C:/Users/Administrator/Desktop/# 查看文件前五行内容 head -5 ufo_awesome.tsv # 记得可以使用tab键补全哈# 如果你的电脑是32位机，上面的head命令可能正常运行，然而如果你的电脑# 是64位机的话，你可能需要用下面的命令，这也是小编推荐的命令: Get-conten

最低0.47元/天解锁文章

weixin_39551103

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
R语言把某些数替换成na_R语言进行数据清洗

微信公众号：Python商务实践博客网址：www.liupu.top任何问题和建议，请在博客评论区或公众号留言最近更新时间：2018-9-26写在前面上次更新后已经有将近三个月没有进行文章更新，所以这里要向那些一直关注小编文章的朋友致以最诚挚的抱歉。因为在这三个月中一些琐事以及工作方面的事情一直缠绕着我，使得我总是没有精力或者心情去及时进行文章更新，再次向喜欢小编文章的各位朋友进行道歉！...
复制链接

扫一扫