kafka 内网外网映射问题 原因:kafka 返回的是 listeners=PLAINTEXT://192.168.1.10:9092 的地址,外部公司访问不到公司内部的地址。解决方案: listeners 配置一个域名,外部公司的系统的服务器配置该域名到公网的映射规则,另外公网映射的时候,端口也要一致,不然有问题。背景:公司内部 kafka 要与外部单位的系统通过公网联调,公司运维做了映射后网络还是不通。
GP一个节点挂了,gpadmin用户免密失效导致 gprecoverseg -i ./recov 恢复的时候报错,报 ssh 不到segment的节点。ssh-copy-id 报错 命令不存在,切回root账号执行 yum -y install。5、再次执行 ssh-copy-id 成功,继续参考最初的链接 ,恢复成功!执行 ssh-keygen -R "你的远程服务器ip地址"4、再次执行 ssh-copy-id 发现还是报错,参考。1、有个节点挂了,参考链接。
zookeeper 进程起来了,但是zkServer.sh status报错Error contacting service. It is probably not running zkServer.sh status报错
linux python 版本从 python3 降为 python2 背景:公司服务器python版本默认为2.7,有一次安装了 anaconda 后把默认的python版本改为了 python3.7版本,后来因为一些原因要降为原来的 2.7版本,发现改了软链接到2.7后执行python -V 显示的还是 3.7版本。解决:1、查看环境变量 echo $PATH ,发现环境变量里 anaconda3/bin 在 path 的最前边2、查看 ~/.bashrc 可以发现里边有将 anaconda 的环境变量配置到了 PATH3、将~/.bashrc.
配置本地ntp服务器及ntp客户端 背景:公司的服务器不能访问外网,所以在服务器A部署了NTP服务器,其他服务器配置源NTP为服务器A1、服务器A的 /etc/ntp.conf 做下边调整后重启ntp1)添加配置restrict 192.168.1.0 mask 255.255.255.0 nomodify notrap# 以自己作为时间源server 127.127.1.0fudge 127.127.1.0 stratum 12)注释配置#server 0.centos.pool.ntp.org iburst
使用SourceTree将本地项目推送至GitLab 背景:正常一般是先在 GitLab 上建好项目,然后再通过 SourceTree 克隆到本地。但有时候忘记了,直接在本地新建了项目,这个时候想把本地项目也放到 GitLab 上托管。步骤:1、在GitLab上新建一个项目,项目名称和本地项目保持一致,复制url2、在 SourceTree 上文件 -》克隆/新建-》Create在浏览那里选择本地的项目,在弹框那里选择是,然后点击创建3、创建完后,选择 仓库-》仓库设置选择添加,然后输入第1步复制的url4、
Ambari 2.7.4 安装 Flink-1.14.4 一、创建flink源1,安装 httpd 服务(随便一台服务器)[root@node01~]# yum -y install httpd[root@node01~]# service httpd restart[root@node01 ~]# chkconfig httpd on安装完成后,会生成 /var/www/html目录(相当于Tomcat的webapps目录)2、下载下边两个包,并放到 /var/www/html/flink目录 (需要在 /var/www/html先建 f...
spark sql / dataframe 二次排序,多字段排序问题 问题:spark sql / dataframe 日常操作中经常需要全局二次排序或者说针对多个字段排序然后输出到一个文件中,直接使用 order by 达不到想要的结果,只是分区内有序。解决:在sql中使用distribute by A_字段 sort by A_字段,B_字段 如果是dataframe,就先将dataframe注册为临时表,再使用sqldf.createOrReplaceTempView("temp_tb")spark.sql("select * from tem
Windows 如何使用 netcat (杀毒软件删掉了nc.exe情况) 问题:windows 从netcat 1.11 for Win32/Win64 下载 netcat 后,杀毒软件删掉了 nc.exe解决: 从Download the Free Nmap Security Scanner for Linux/Mac/Windows下载 nMap 并安装1、2、安装后可以使用 ncat.exe...
sparkStreaming yarn-cluster消费到了数据但没有处理 现象:sparkStreaming 作业 local[*] 可以正常消费到数据并处理,但提交到yarn-cluster后只消费到数据但没有处理,从 Streaming Statistics 可见只有消费到数据,但没有处理原因: 提交命令时只配置了1个 container ,确切的说是1个 core ,该 core 被分配用于消费数据,没有core可以用来处理,通过executor界面可以看到spark-submit --master yarn-cluster --num-executors.
Ambari 集群重启后,HDFS 报告警 NameNode Last Checkpoint 现象:Ambari 集群重启后,HDFS 报告警 NameNode Last Checkpoint解决:在其中一台服务器依次执行下边三条命令(HDFS用户)hdfs dfsadmin -safemode enterhdfs dfsadmin -saveNamespacehdfs dfsadmin -safemode leave
Ambari 使用的 Mysql Gelera 集群的机器重启后,集群启动不了 现象:Ambari 集群所在的服务器要下电,下电前忘记手动停止 Mysql Gelera 集群。上电后,Ambari 启动失败,因为连接不到对应的 Mysql 。发现 Mysql 集群未启动。手动启动 Mysql 将其中一个节点的引导地址置空然后执行systemctl start mysqld没有反应,日志也无报错。再次 reboot 该节点,reboot 完后,mysql 报错It may not be safe to bootstrap the cluster fro..
Ambari Yarn ResourceManager 无法停止及启动 现象:通过 Ambari 安装了 Yarn HA,一段时间后,Ambari报连接不上其中一个服务器的 ResourceManager 警告。去该服务器上看,没有相关的 ResourceManager 进程。在Ambari界面重启,在停止阶段失败。直接启动也失败。在该服务器通过命令yarn-daemon.sh start resourcemanager 启动后,警告消失。但通过这种方法启动的 ResourceManager 跟在Ambari界面启动的不一样,导致Ambari接管有些问题:Ya.
spark sql 开窗函数加条件 需求:如下图 test.csv,dataframe 中每行都需要添加前边跟后边最近的的 SSSSSSS* 记录对应的值。解决方案:无法通过 lead, lag 等方法实现,因为开窗函数选定的数据框无法加上条件思路 - 通过两次 Join 分别找到前后最近的 SSSSSS*记录,代码如下var df = spark.read.option("header", "true").csv("C:\\Users\\XXX\\Desktop\\test.csv") // 读取文件df = df.
linux 使用 arcpy linux 要想使用 arcpy,需要先安装 arcigs server。安装arcigs server 需要 安装包和授权文件。(以104版本为例)1,ArcGIS_for_Server_Linux_1041_151978.tar.gz2,arcgis104.ecp安装步骤:1,yum install xorg-x11-server-Xvfb2,创建用户组arcgisgroupadd arcgis3,创建用户ags (安装不能用root用户)useradd -g arcgis.
linux ssh 报错 WARNING: REMOTE HOST IDENTIFICATION HAS CHANGED! 现象:ssh 到其他服务器时报错:WARNING: REMOTE HOST IDENTIFICATION HAS CHANGED!解决:ssh-keygen -f "/root/.ssh/known_hosts" -R 192.168.X.X
pyspark 写入csv 文件报错 org.apache.hadoop.io.nativeio.NativeIO$Windows.createFile。。。 现象:pyspark 写入windows本地csv文件报错后报错org.apache.hadoop.io.nativeio.NativeIO$Windows.createFile。。。解决:删除hadoop-common-2.6.0/bin 里的hadoop.dll
pyspark 报错 TypeError: must be real number, not Column 现象:pyspark 需要添加一列 distance(距离),distance 需要基于四列的值(原经度,原纬度,现经度,现纬度)计算得来。def calculateS(lng1,lat1,lng2,lat2): lng1, lat1, lng2, lat2 = map(radians, [lng1, lat1, lng2, lat2]) dlon=lng2-lng1 dlat=lat2-lat1 a=sin(dlat/2)**2 + cos(lat1) * cos...
idea 运行 scala 报错 object apache is not a member of package org 现象:idea 运行scala项目报错object apache is not a member of package org解决:
sqoop 迁移 oracle 数据到 hive ,卡住 Connecting to jdbc:hive2:// 现象:sqoop 迁移 oracle 数据到 hive ,卡在Connecting to jdbc:hive2://....解决:在 /etc/hive/conf 增加 beeline-hs2-connection.xml 内容如下:<?xml version="1.0"?><?xml-stylesheet type="text/xsl" href="configuration.xsl"?><configuration><propert..