大数据分析系列在线课程的学习札记之一

序:最近正在学习约翰霍普金斯大学的大数据分析在线课程(参考此处),在学习第3季:获取和清洗数据(Getting and Cleaning Data)时发现,从第一周开始的作业中就有几个细节需要特别注意。于是决定从本周开始将一些容易出问题的地方记录下来。


1)download.file()的使用

在下载Excel文件(XLSX类型)时,请注意使用二进制下载方式,即mode参数应设为“wb”。命令参考如下。

download.file(fileURL, destfile = "./data/nat_gas.xlsx", mode = "wb")

否则,下载的文件无法进行正确的读写。


2)curl包的支持

在解答XML数据导入问题的时候,题目中给出的链接是HTTPS(即带安全保护的HTTP),建议在Windows下使用RStudio的同学安装curl支持包,否则会出现报错的情况,即提示所提出的链接似乎不是XML。包的安装很简单,使用如下命令。

install.packages(curl)

3)Excel文件导入包的使用

因为Excel文件的导入包(package)要使用Java运行时支持库(JRE),所以需要下载相应的JRE环境。请注意如果Windows 使用的64位版本,务必要下载对应的版本。

官方下载的地址为:http://www.java.com/en/download/manual.jsp下载选项参考下图。



64位版本的Windows用户请务必下载高亮的选项,否则在载入xlsx库时会出错。

此外,建议使用xlsx库之前将R更新到3.1.3版,同时将RStudio更新到最新版,否则可能会有警告信息。更新完环境之后,使用如下命令可以安装xlsx包。

install.packages(xlsx)


在安装xlsx包时请选择畅通的网络,因为依赖的库相对较多

4)data.table包的使用

要点1:data.table包的使用很重要,虽然是放在最后,但是务必要认真学习,因为以后也会经常用。

要点2:在做练习时,请注意载入data.table包后,使用fread读取文件生成data table,不仅速度快,而且不会报错。

要点3:在安装data.table包时请选择畅通的网络。

4)swirl课程包的安装

这一季的学习中也有swril的可选内容,不过swirl默认没有安装对应的课程包,使用如下命令,已安装课程包。

install_from_swirl("Getting_and_Cleaning_Data")


大体上就是这些吧!祝各位同学好运!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值