数据基本知识
- dataset 数据集,由具有观测值的记录组成
- observation 记录,赋予特定变量值的变量组成
- variable 对象的特征变量
- subject or element 主题,一种对象,例如学生对象
(看来还得复习数据挖掘)
R的介绍——brief introduction
- R是实现数据统计和可视化的语言
- 最重要是开源的,有很多免费的包,大大降低了各类模型实现的成本。还是建议写Rbase,调用各种包确实能够提高效率,但是也造成自己没有核心竞争力,所以还是好好搬砖吧!
- GNU环境
维基百科描述
是自由软件的许可证,终端用户可以修改,执行,分享软件。
- 最常用的包有:学的还是比较浅,只要学习R语言,利用R语言实现数据的可视化,必然会提ggplot2!!!
基本语法
- 科学计算:+,-,*,/,^ ,sqrt(),%/%——整除,%%——求余
- 赋值符号:<-或者是=
a<-5
- 变量的命名规则,对大小写敏感变量名可由字母、数字、下划线和小数点组成,但是数字和下划线不能是变量名的开始部分。(还有一些内置的常量不能使用命名,例如LETTERS,letters,month.add,month,name等)
读取数据
读取本地数据
- read.table()
默认header=FALSE,sep="",na.strings=“NA”,quote=""" - read.csv()
读取逗号文件 - 读取大数据
当需要读取的数据较大的时候,使用read.table()和read.csv()耗时较大,我们采用data.table包里面的fread()方法来帮助读取较大的数据。
读取线上数据(后面会有一个小task)
- 创建存储数据的目录
dir.name<-'D:/Rcode/Datasets'
dir.create(dir.name)
setwd(dir.name)
- 下载cURL
http和https的区别:简单讲https就是http的安全版本,加密的详细内容需要SSL,https需要到ca申请证书。当从https网站上下载数据时我们就需要使用cURL。
curl下载地址
把curl的路径放进R的搜索路径
old.env<-Sys.getenv("Path")
curlpath<-'C:/Program Files/R'
env<-paste(old.env,curlpath,sep=';')
Sys.setenv(Path=env)
R里面的目录路径用的是slash
url是统一资源定位符,是对可以从互联网上得到的资源的位置和访问方法的一种简洁表示,是互联网上标准资源的地址。互联网上的每一个文件都有一个唯一的URL,它包含的信息指出文件的位置以及浏览器怎样处理它。
- 现在我们可以通过使用curl方法来下载htpps协议下的数据了
download.file(url,destfile,method)