Julia语言数据预处理
本文简单介绍拿Julia语言进行数据预处理,数据R语言和python的都应该有感觉,就是R和python做数据预处理非常方便。R方面主要是有dplyr这个包,或者是datatable这个包。python对应的pandas这个库,因此这几个包极大地促进了数据预处理。juila语言其实在这个方面也是非常强的,因为julia本身就是吸收了python,R,matlab等一系列语言发展而来的,虽然目前还没有太流行,但是未来很有发展潜力。我自己感觉一个很重要的原因就是julia语言在优化领域存在一些非常强劲的包。大家看,python有了numpy,pandas,sciklearn等等,R也有大量的机器学习,以及统计学方面的包,但是呢,这两个软件优化方面的东西还是少了一些,当然也存在这方面的包,比如python有pymo。R也有对应的优化包,但是呢,不是太强劲,我们希望R,python在优化方面也有像机器学习那么强悍的几个包。julia语言弥补了这个不足,它在优化方面非常突出。比matlab要好用很多,当然我们今天不是讲julia在优化方面的应用,主要是做一些数据预处理的工作。
julia这个语言里边核心的数据结构主要是array和DataFrame,数据预处理主要是利用dataframe的一些函数进行
#调用DataFrames包
using Dataframs
#读取csv文件
#设置文件地址
file="D:/Rdata/exercise.csv"
#读取数据
data=readtable(file)
#查看数据的前五行,用head
6×8 DataFrames.DataFrame
│ Row │ weekend │ num_child │ distance │ rides │ games │ wait │ clean │
├─────┼─────────┼───────────┼──────────┼───────┼───────┼──────┼───────┤
│ 1 │ "yes" │ 0 │ 114.648 │ 87 │ 73 │ 60 │ 89 │
│ 2 │ "yes" │ 2 │ 27.0141 │ 87 │ 78 │ 76 │ 87 │
│ 3 │ "no" │ 1 │ 63.301 │ 85 │ 80 │ 70 │ 88 │
│ 4 │ "yes" │ 0 │ 25.9099 │ 88 │ 72 │ 66 │ 89 │
│ 5 │ "no" │ 4 │ 54.7183 │ 84