新手之路--spark

1、spark2.1.1-FlatMapFunction中call返回类型从Iterable变成了Iterator。

最近开始用spark,一直以为是我本地编译有问题,真是要死要活。

 

2、Spark任务都会绑定一个端口来显示WebUI,默认端口为4040,如果被占用则依次递增+1端口重试,重试次数由参数spark.port.maxRetries控制,默认重试16次后就放弃执行

也可以在submit使用用 --maxRetries来指定。所以java.net.BindException: Address already in use 报错是正常的。

hdfs也有一个ui界面查看文件系统,linux上要加上hdfs dfs 或者hadoop fs -ls 和linux上命令差不多。

 

3、yarn、spark, mesos, local  目前用的是yarn,local用于本地开发测试,本地单机模式;

 

http://blog.csdn.net/u012050154/article/details/50766008

参考http://blog.csdn.net/xwc35047/article/details/53933265

目前使用yarn:http://chinadaas-test101:8088/cluster/apps/RUNNING   可以spark上运行过的application

yarn application -list 查看当前运行的程序列表

 

4、sqoop

 

oracle 导入数据到hive表example

sudo -u hive sqoop import  --connect   jdbc:oracle:thin:@ip:port/orcl  --username name  --password password  --table tablename   --hive-table tablename    --hive-import  --fields-terminated-by  "\t"   --lines-terminated-by  "\n"  --hive-overwrite -m 1 --target-dir /tmp/hive_export_year/tmp/AN_TABLE_S_hdfs_ext/

-m 线程 

参考链接:http://www.cnblogs.com/cenyuhai/p/3306037.html

http://blog.csdn.net/a2011480169/article/details/51500156

 

5. 创建hive表

生成的par文件,可以用创建外部表方式指向par文件,create external table tablename

show create table tablename; 等也可以创建hive表

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值