spark官方文档:
http://spark.apache.org/docs/2.2.0/api/scala/index.html#org.apache.spark.sql.Column
一、数据导入
建议预先下载一个文件拖拽上传的软件
yum -y installl lrzsz
1.在hadoop目录下执行,从本地(windows)上传user.csv
文件到虚拟机
2.查看hdfs目录
hdfs dfs -ls /
3.递归创建目录
hdfs dfs -mkdir -p /events/users
4.上传文件到hdfs
hdfs dfs -put user.csv /events/users
5.在zeepelin中操作
(1)录入数据
val users=spark.read.options(Map("inferSchema"->"true","delimiter"->"\t","header"->"true"))
.csv("/events/users/users.csv")
(2)查看表结构
users.printSchema