生产案例
微步229
这个作者很懒,什么都没留下…
展开
-
主机重启使得Kudu时间不同步的解决方法
问题描述:集群一直运行好好的,突然一天集群机器发生关机->重启后,通过CM观察发现,多个组件飘红,包括HBase、Kudu等,如下图 通过查看kudu进程的角色日志,发现是由于时钟不同步引起的,错误日志如下: 解决办法: 1、登录agent所有机器(除开ntp 服务器),执行命令service ntpd restart[root@cdh-002 ~]# n...原创 2018-07-02 09:27:18 · 2436 阅读 · 0 评论 -
Impala cannot read or execute the parent directory of dfs.domain.socket.path的解决方法
错误信息:ERROR cc:268 Invalid short-circuit reads configuration: - Impala cannot read or execute the parent directory of dfs.domain.socket.pathERROR cc:271 Aborting Impala Server startup due to improper ...原创 2018-07-02 10:09:32 · 4585 阅读 · 0 评论 -
记一次访问Web服务偶尔不通问题解决过程
现象:我们部署的一个WEB服务,公司用户在访问过程中,时不时的遇到访问超时,访问失败等问题定位:通过抓包工具分析,发现client在发送TCP SYN包后,Server没有回复SYN+ACK报文问题原因:公司用户通过无线网络或者有线网络,均是NAT网络。开启tcp_tw_recycle对于服务端,同一个src ip,可能会是NAT后很多机器,这些机器timestamp递增性无可保证,服务器...原创 2018-10-16 10:17:49 · 1283 阅读 · 0 评论 -
记一个Spark Excutor Dead问题解决过程(memory.TaskMemoryManager: Failed to allocate a page)
一、问题现象通过Spark UI查看Excutors,发现存在Excutor Dead的情况 进一步查看dead Excutor stderr日志,发现如下报错信息WARN memory.TaskMemoryManager: Failed to allocate a page (67108864 bytes), try again 二、解决过程打开GC日志...原创 2018-12-10 17:43:01 · 10283 阅读 · 0 评论 -
ERROR executor.CoarseGrainedExecutorBackend: RECEIVED SIGNAL TERM的一种解决方案
问题现象:spark应用能正常计算得到结果,但是查看executor有很多是dead,如下图查看executorstderr日志发现有错误日志:ERROR executor.CoarseGrainedExecutorBackend: RECEIVED SIGNAL TERM除此之外没有其他任何错误信息问题原因:由于使能动态资源分配executors数(spark.dy...原创 2019-05-08 11:11:57 · 31560 阅读 · 2 评论 -
kafka broker Leader -1引起spark Streaming不能消费的故障解决方法
一、问题描述:Kafka生产集群中有一台机器cdh-003由于物理故障原因挂掉了,并且系统起不来了,使得线上的spark Streaming实时任务不能正常消费,重启实时任务都不行。查看kafka topic状态,发现broker Leader出现-1的情况,如下图二、问题分析Kafka Broker Leader 为-1,表示有partition在选举Leader的时候失败...原创 2019-05-22 14:13:27 · 2411 阅读 · 2 评论 -
spark-submit提交报错: java.sql.SQLException: No suitable driver解决方法
一、问题出现背景:spark-submit提交程序运行时报错User class threw exception: java.sql.SQLException: No suitable driver,写入oracle代码如下:/*写入Oracle,采用追加模式*/dataFrame.write().format("jdbc") .option("url", "jdb...原创 2019-08-21 16:23:08 · 3324 阅读 · 1 评论 -
记一次Spark中 Container killed by YARN for exceeding memory limits的解决过程
一、问题现象:使用sparksql调用get_json_object函数后,报如下错误:yarn容器被kill,导致任务失败,查看日志:Container killed by YARN for exceeding memory limits使用spark命令:/opt/software/spark-2.2.0-bin-hadoop2.6/bin/spark-sql \--mas...原创 2019-09-16 10:57:24 · 22059 阅读 · 7 评论