个人学习笔记
文章平均质量分 74
个人的学习笔记,记录一下,方便复习和总结。
栗子_yangxw
有志者、事竟成,破釜沉舟,百二秦关终属楚!
展开
-
scala语言下使用protobuf协议解析数据
文章目录scala语言下使用protobuf协议解析数据背景存在的问题解决pom文件proto文件生成源码scala语言下使用protobuf协议解析数据背景kafka数据源是protobuf格式,需要反序列化,并取出相关字段。已有xxx.proto文件,需要生成解析类。存在的问题protoc命令行,不支持直接生成scala文件网上寻找工具,转了一圈各大论坛,基本都是 先生成 java文件,然后再scala里面引用,这样不符合需求,不愿仅仅因为解析protobuf而引入java语言原创 2022-04-13 13:20:49 · 2675 阅读 · 0 评论 -
spark on yarn执行完hsql命令 yarn队列一直没有释放资源
现象描述这个任务已经执行完毕,但是任务状态一致是running导致队列资源没有释放由于是测试服务器,队列资源较少,导致后面任务阻塞。原因:spark on hive本质是spark-shell.sh,spark-shell.sh会一直占用进程,这样后面提交的hive on spark任务就不需要重复上传spark依赖,加速任务执行速度解决方法:如果是hive命令行客户端提交的job,退出hive命令行,资源自动释放如果是脚本提交的job,最好在脚本末尾加入 !quit 主动释放资源..原创 2020-07-27 21:31:50 · 2807 阅读 · 1 评论 -
本地远程连接云主机Hadoop集群调试失败,datanode连接超时,端口9866
问题:在本地有一套hadoop集群,阿里云主机有一套集群;本地IDEA开发工具写的MapReduce调试案例,可以在直接连接本地虚拟机集群运行跑,但是连接云主机集群报错,连接datanode超时!本地调试案例驱动主方法代码如下:报错信息如下:仔细看报错信息,发现是连接datanode的时候,请求打在了集群的内网ip上,而阿里云集群的内网地址在外面当然是访问不了,因此访问超时!显然,本地虚拟机的地址与本机共用一个内网,因此没有这个问题!解决办法:找了很久资料,发现有hdfs-site.xm原创 2020-05-15 23:27:15 · 3615 阅读 · 7 评论 -
spark中使用不同算子实现wordcount的案例
数据准备/** * @author xianwei * @Created 2020/06/05 22:06 */object WordCountExer { def main(args: Array[String]): Unit = { val sparkConf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("file - RDD") val sc = new SparkContext(spar原创 2020-06-07 20:59:23 · 353 阅读 · 0 评论