如何使用zeppelin进行数据分析

spark官方文档:
http://spark.apache.org/docs/2.2.0/api/scala/index.html#org.apache.spark.sql.Column

一、数据导入

建议预先下载一个文件拖拽上传的软件

yum -y installl lrzsz

1.在hadoop目录下执行,从本地(windows)上传user.csv文件到虚拟机

2.查看hdfs目录

hdfs dfs -ls /

3.递归创建目录

hdfs dfs -mkdir -p /events/users

4.上传文件到hdfs

hdfs dfs -put user.csv /events/users

5.在zeepelin中操作
(1)录入数据

val users=spark.read.options(Map("inferSchema"->"true","delimiter"->"\t","header"->"true"))
  .csv("/events/users/users.csv")

在这里插入图片描述
(2)查看表结构

users.printSchema

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值