运维
文章平均质量分 64
大模型大数据攻城狮
在阿里巴巴等多种类型公司工作过,第一份工作是在大厂做移动开发,后来在创业公司由于团队需要做后台开发、嵌入式开发等几乎全栈开发,最近这些年还保持必要全栈开发,精力更多在大数据、大模型等领域。
展开
-
spark运行报错:Container killed by YARN for exceeding memory limits
通常情况下,Executor 的内存需求可能超过你为其分配的内存,这是因为除了应用程序的堆内存(Heap Memory)之外,还有一些额外的开销,例如操作系统本身、JVM 的非堆内存(如代码缓存、线程栈等)、以及 Spark 的内部开销。在 Spark 中,每个 Executor 进程都会有自己的容器,并且这个容器的内存使用是由 YARN 监控的。如果你确定你的应用程序不会滥用虚拟内存,并且你的节点有足够的交换空间来处理可能的内存溢出,你可以禁用 YARN 的虚拟内存检查,通过设置。原创 2024-07-11 15:23:01 · 1182 阅读 · 0 评论 -
CentOS Python 2.7 离线安装 Requests 库保姆级教程
在内网或无网络连接的环境中,Python 开发者经常需要离线安装第三方库。本文将详细介绍如何在 CentOS 系统上,使用 Python 2.7 版本离线安装 Requests 库。Requests 是一个简单易用的 HTTP 库,用于发送各种 HTTP 请求。原创 2024-06-07 08:49:58 · 1279 阅读 · 0 评论 -
Hive分区表跨集群迁移保姆间教程
集群1下,shell命令行执行 hive -e "show partitions table_name" > partitions.txt,table_name要换成要执行的表名,例如这里是test.analysis_events。给集群2的同名hive表添加分区,数据就会自动加载到Hive表中,在partitions.txt同个目录下,编写python脚本如下。然后python python脚本.py,就可以看到不断添加动态分区。对于每个分区,将数据打包为便于传输的格式,例如使用tar。原创 2024-05-16 17:16:27 · 442 阅读 · 0 评论 -
海豚调度器早期版本如何新增worker分组
在DolphinScheduler 1.3.5版本中,Worker分组通常是在部署时通过配置文件进行定义的,而不是在用户界面上直接操作。请注意,具体的配置文件和参数可能会根据DolphinScheduler的不同版本而有所变化。如果你不确定如何操作,可以查阅DolphinScheduler的官方文档或在社区寻求帮助。原创 2024-05-13 07:05:19 · 290 阅读 · 0 评论 -
迁移一台服务器上运行的shell脚本到海豚调度器需要考虑问题
通过以上步骤,可以确保SHELL脚本在迁移到海豚调度器后能够稳定、高效地运行。同时,要确保整个迁移过程中,遵循项目的实际情况,保障数据迁移工作的连续性和正确性。原创 2024-05-11 09:10:36 · 477 阅读 · 0 评论 -
shell监控日志关键字,并杀死有故障进程重启
在实际开发当中,会遇到很多程序运行一段时间出现故障,例如flume没有采集日志,写hbase的程序出现”Too many open files”或”session Time out”。除了把代码写健壮性,尽量能做到7*24小时零故障保障,还可以通过crontab来配置定时检测的脚本,分析程序的日志,根据关键来产生预警,或者来进行kill掉进程进行重启。//$7是gawk分割netstat -tunpl | grep 8083产生字符串的位置my_pid=`netstat -tunpl | grep原创 2021-03-07 16:49:08 · 890 阅读 · 0 评论