微信公众号:Python商务实践
博客网址:www.liupu.top
任何问题和建议,请在博客评论区或公众号留言
最近更新时间:2018-9-26
写在前面
上次更新后已经有将近三个月没有进行文章更新,所以这里要向那些一直关注小编文章的朋友致以最诚挚的抱歉。因为在这三个月中一些琐事以及工作方面的事情一直缠绕着我,使得我总是没有精力或者心情去及时进行文章更新,再次向喜欢小编文章的各位朋友进行道歉!这也让小编感觉到一个人坚持做一件事情是多么的困难。我一直觉得自己还算是具有一种比较能够坚持的性格,然而实践证明,坚持总是说着容易。在反思了这段时间之后,小编决定在接下来的文章更新中尽量做到每周都有更新,不过每周更新的频率将有所调整,小编会尽量做到每周两更,然而考虑到工作人士的身不由己,一周一更也将成为一种常态,但是小编会保证每周都至少会有一篇文章更新,以感激你们这群长期支持小编的朋友。可能太久没有写文章了,所以一时间有点话痨,下面开始介绍一下本期的主题。本期文章中,小编将和大家介绍一下怎么使用R语言去进行数据的清洗以及规整。因为任何形式的数据分析都离不开数据清洗,可以说数据清洗整理占据了整个数据分析工作时间的80%,因此小编一直以来就极为重视这一点。长久以来小编一直使用Python和R进行数据分析,所以小编不可能只介绍R语言的数据清洗过程,也会介绍怎么使用Python去进行同类型的数据清洗工作,因为数据清洗真的比较重要,所以这期文章只介绍怎么使用R语言去进行数据清洗,下期文章介绍Python的处理过程。而本文选择进行清洗的数据来源于美国的UFO观察数据,考虑到数据将有80M的存量,这里就不将数据上传了,需要的朋友请给小编发私信或者留言,小编会及时发给你们!好了,这里就不再多说废话了,下面正式进入主题。
先观察一下数据吧
正如前面小编说过的一样,数据集是一份存量为80M的固定分割文本文件(也就是tsv格式文件),因此使用记事本或者其他程序打开文件真的会需要一点时间(尤其是配置比较差的电脑更是如此),好在我们并没有打算浏览全部数据,我们仅仅需要观察一下数据集的构成与特征,所以这个时候直接使用命令行工具会显得更加方便快捷。如果大家看过小编之前的文章,那么就应该知道怎么去打开命令行工具(windows下存在两种命令行工具:cmd和powershell,打开的方式类似,win+R后输入cmd或者powershell分别打开这两种形式的命令行;苹果电脑下通过command+空格键,然后输入terminal打开命令行终端)。这里小编选择windows系统下的powershell命令行工具进行介绍。在打开命令行工具后,首先将路径转移到ufo数据所在的路径,而后使用查看命令查看文件即可。在命令行窗口中输入以下代码完成查看。
# 改变路径到文件所在路径,小编的文件存放在桌面,所以这里改变路径到桌面cd C:/Users/Administrator/Desktop/# 查看文件前五行内容
head -5 ufo_awesome.tsv # 记得可以使用tab键补全哈# 如果你的电脑是32位机,上面的head命令可能正常运行,然而如果你的电脑# 是64位机的话,你可能需要用下面的命令,这也是小编推荐的命令:
Get-conten