Rattle :基于R的数据挖掘工具(3):载入数据

数据

数据是进行数据挖掘工作的基础,要是没有数据,那也就没什么可挖的了。当今时代,数据的丰富超乎想象,它可以是数字,也可以是文本,图像,声音,视频等各种形式的存在。但是要把数据变成知识和信息,并不是一件简单的事。

关于数据的一般术语:
一个数据集由变量(列)的各个观测(行) 构成,其中变量可分为输入变量和输出变量,这些变量可以是数值的也可以是属性的(categoric variables)。
为了完成数据挖掘工作,首先需要把数据保存在各种系统中。要把形式和格式各异的数据组织成我们挖掘工作所需的形式。数据的收集,整理,存储和访问是一项重要的工作

载入数据

数据会从不同的来源,以不同的形式进入我们的项目。借助于R的数据处理能力,Rattle可以载入多种来源的数据。

(1)csv数据
csv数据是一种很简单普通的逗号分隔型取值格式,一种纯文本的数据存储格式。在csv中,数据的字段由逗号分开,程序通过读取文件重新创建正确的字段。csv数据可以说是R当中(当然也是Rattle当中)输入数据的首选格式。csv文件可以在电子表格和各种数据库之间输入输出,包括LibreOffice Calc, Gnumeric,, Microsoft Excel, SAS/Enterprise Miner, Teradata, Netezza等等。

在Rattle里载入csv数据
使用Data标签的Sprasdsheet选项,这个选项可以载入csv,txt,和execl数据文件。选中Sprasdsheet后,点击Filename,选择相关数据文件,最后按执行按钮。

 



在Rattle里有三个作为例子的csv数据集

 



来选择weather.csv,看看数据载入的结果。

 



在界面上会给出数据集的变量的名称和内容,也就是基本的数据汇总。

在载入数据文件的时候,用到了Rattle界面的两个参数,Separator 和 Header。Separator表示文件中字段的分割形式,如csv文件是逗号而txt文件是使用tab键,在Separator中应用 \\t。 选中Header参数会给出变量名(列名)。如果你的csv文件中不包含变量名,不要选这一项,否则会误把第一行作为变量名读入。

载入weather.csv数据还有一种简易方式,执行--- 弹窗选是即可。


(2)其它的数据类型
ARFF 数据:Attribute-Relation File Format,是一种文本格式的文件。本质上来说,ARFF格式其实就是带有元数据(关于数据格式的信息)的CSV格式。weather示例数据也有ARFF格式版本提供。

ODBC 数据:The Open Database Connectivity (ODBC) standard,这是在数据库中访问数据的一般方法,这是基于SQL语言的技术。通过ODBC来访问数据需要通过DSN给出数据来源。

 



R 数据集和其它的数据来源,包括SPSS数据,XML数据等,把它们转化为数据框即可用于Rattle中。注意这些数据要被放入Rattle的库里边。在R的安装目录下可以读取一般的R数据。

Library:很多R包都提供了示例数据集,Rattle也可以读入它们。

语料库(Corpus)和脚本数据(Script)。
  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值