工作找了个DA但是却在干ETL的活,R捡起来一看基本不会用了。赶紧复习复习。
1. 使用data.frame
>data4=data.frame(data1[,1],data1[,2]
> summary(data4)
data1...1. data1...2.
Min. : 0.00 Min. :0.000
1st Qu.: 0.00 1st Qu.:0.000
Median : 31.00 Median :0.000
Mean : 29.48 Mean :0.367
3rd Qu.: 48.00 3rd Qu.:1.0
可以看出列名丢失了,需要重新命名
> colnames(data4)=c('col1','col2')
> summary(data4)
col1 col2
Min. : 0.00 Min. :0.000
1st Qu.: 0.00 1st Qu.:0.000
Median : 31.00 Median :0.000
Mean : 29.48 Mean :0.367
3rd Qu.: 48.00 3rd Qu.:1.000
Max. :108.00 Max. :1.000
直接使用列名抽取,但是也有列名不对的问题
> data4=data.frame(data1[,'Gender'],data1[,'Age'])
> summary(data4)data1....Gender.. data1....Age..
Min. :0.000 Min. : 0.00
1st Qu.:0.000 1st Qu.: 0.00
Median :0.000 Median : 31.00
Mean :0.367 Mean : 29.48
3rd Qu.:1.000 3rd Qu.: 48.00
Max. :1.000 Max. :108.00
2. 直接用列名选择
> data.cut1=data1[,c('Age','Gender')]
> head(data.cut1)
Age Gender
1 36 0
2 73 1
3 30 0
4 49 1
5 47 1
6 47 0
3.使用dplyr的select等方法
>library("dplyr")
>select(my_data, Sepal.Length, Petal.Length)