2019年最新spark常用命令汇总

在这里插入图片描述
前言

大数据开发中Spark是专为大规模数据处理而设计的高速引擎,可以说在大数据开发中占据着举足轻重的地位,下面就Spark的一些常用命令做了一下汇总。

正文
  1. 加速跑
  spark-sql --name uername --num-executors 21 --driver-memory 8G --executor-memory 8G
  2. 上传数据
  建表
  create table xxx_yyy ( userid varchar(200))
  上传数据
  load data local inpath ‘/home/spark/xxx.txt’ into xxx_yyy
  ##inpath后面跟路径名,into后面跟表名
  3. 导出数据
  hive -e “select * from temp.user_temp;” > /home/spark/temp/daochu.txt
  ##通过hive的导出,代码尽量从中间表出,短代码没问题,但是越长越会出现问题。
  4. 建表语句
create table table_name
(
column1 double comment ‘字段注释1’,
column2 double comment ‘字段注释2’
)partitioned by (data_date string)
row format delimited
fields terminated by ‘\t’
stored as textfile
;
—创建新表  
drop table if exists table_name;
  create table if not exists table_name as …
—更好的建表方式  
 5. MAC上的数据加密打包工作
##STEP 1
首先开启终端机(Terminal),使用 cd 指令切换到要压缩的档案所在目录,如果放在桌面上就是:
cd Desktop
##STEP 2
##使用 zip 指令配合 -e 参数制作加密的压缩档:
zip -e daobao.zip daobaowenjian.txt
##其中 daobaowenjian.txt 就是要加密压缩的档案,而 daobao.zip 就是输出的压缩档档名。##在压缩前,要先输入密码:
##如果要压缩整个资料夹,就把上面的 filetoprotect.txt 替换成资料夹,再加上 -r即可,例如:
zip -er ~20180115.zip ~/20180115/
zip -er 20180115.zip 20180115
  6. UDF的使用
  add jar /home/script_job/jar/hive-udf-1.0.jar;
  create temporary function month_end as ‘com.xxx.hive_udf.EndDayOfMonth’;
  7. MAC上用终端快速链接跳板机访问spark
  vi ~/.bash_profile
  alias work=“ssh user_name@172.0.0.0
  ##保存后可在终端直接输入work进行访问。
结尾
  通过本文的讲解各位小伙伴们对于Spark是不是有了一个比较基础的了解?接下来还需要小伙们的多多努力。

文章来自:https://www.itjmd.com/news/show-6401.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值