rookie_bigdata
码龄7年
关注
提问 私信
  • 博客:92,385
    社区:1
    92,386
    总访问量
  • 36
    原创
  • 587,014
    排名
  • 5
    粉丝
  • 0
    铁粉

个人简介:菜鸟一枚

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:湖南省
  • 加入CSDN时间: 2018-01-02
博客简介:

Lbg_007的博客

查看详细资料
个人成就
  • 获得28次点赞
  • 内容获得14次评论
  • 获得117次收藏
创作历程
  • 2篇
    2023年
  • 7篇
    2022年
  • 5篇
    2021年
  • 22篇
    2020年
成就勋章
TA的专栏
  • gitlab
    1篇
  • ntp
    1篇
  • git
  • flink
    1篇
  • spark sql
    2篇
  • sparkStreaming
    1篇
  • Ambari
    8篇
  • HDFS
    1篇
  • mysql
    3篇
  • scala
    3篇
  • arcpy
  • pyspark
    2篇
  • spark
    3篇
  • sqoop
    1篇
  • sql
    1篇
  • Samza
    1篇
  • Oracle
    3篇
兴趣领域 设置
  • 大数据
    spark
创作活动更多

如何做好一份技术文档?

无论你是技术大神还是初涉此领域的新手,都欢迎分享你的宝贵经验、独到见解与创新方法,为技术传播之路点亮明灯!

342人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

kafka 内网外网映射问题

原因:kafka 返回的是 listeners=PLAINTEXT://192.168.1.10:9092 的地址,外部公司访问不到公司内部的地址。解决方案: listeners 配置一个域名,外部公司的系统的服务器配置该域名到公网的映射规则,另外公网映射的时候,端口也要一致,不然有问题。背景:公司内部 kafka 要与外部单位的系统通过公网联调,公司运维做了映射后网络还是不通。
原创
发布博客 2023.11.06 ·
708 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

GP一个节点挂了,gpadmin用户免密失效导致

gprecoverseg -i ./recov 恢复的时候报错,报 ssh 不到segment的节点。ssh-copy-id 报错 命令不存在,切回root账号执行 yum -y install。5、再次执行 ssh-copy-id 成功,继续参考最初的链接 ,恢复成功!执行 ssh-keygen -R "你的远程服务器ip地址"4、再次执行 ssh-copy-id 发现还是报错,参考。1、有个节点挂了,参考链接。
原创
发布博客 2023.08.04 ·
429 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

zookeeper 进程起来了,但是zkServer.sh status报错Error contacting service. It is probably not running

zkServer.sh status报错
原创
发布博客 2022.08.29 ·
1248 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

linux python 版本从 python3 降为 python2

背景:公司服务器python版本默认为2.7,有一次安装了 anaconda 后把默认的python版本改为了 python3.7版本,后来因为一些原因要降为原来的 2.7版本,发现改了软链接到2.7后执行python -V 显示的还是 3.7版本。解决:1、查看环境变量 echo $PATH ,发现环境变量里 anaconda3/bin 在 path 的最前边2、查看 ~/.bashrc 可以发现里边有将 anaconda 的环境变量配置到了 PATH3、将~/.bashrc.
原创
发布博客 2022.05.26 ·
3549 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

配置本地ntp服务器及ntp客户端

背景:公司的服务器不能访问外网,所以在服务器A部署了NTP服务器,其他服务器配置源NTP为服务器A1、服务器A的 /etc/ntp.conf 做下边调整后重启ntp1)添加配置restrict 192.168.1.0 mask 255.255.255.0 nomodify notrap# 以自己作为时间源server 127.127.1.0fudge 127.127.1.0 stratum 12)注释配置#server 0.centos.pool.ntp.org iburst
原创
发布博客 2022.05.26 ·
2194 阅读 ·
2 点赞 ·
0 评论 ·
4 收藏

使用SourceTree将本地项目推送至GitLab

背景:正常一般是先在 GitLab 上建好项目,然后再通过 SourceTree 克隆到本地。但有时候忘记了,直接在本地新建了项目,这个时候想把本地项目也放到 GitLab 上托管。步骤:1、在GitLab上新建一个项目,项目名称和本地项目保持一致,复制url2、在 SourceTree 上文件 -》克隆/新建-》Create在浏览那里选择本地的项目,在弹框那里选择是,然后点击创建3、创建完后,选择 仓库-》仓库设置选择添加,然后输入第1步复制的url4、
原创
发布博客 2022.03.23 ·
3880 阅读 ·
4 点赞 ·
0 评论 ·
9 收藏

Ambari 2.7.4 安装 Flink-1.14.4

一、创建flink源1,安装 httpd 服务(随便一台服务器)[root@node01~]# yum -y install httpd[root@node01~]# service httpd restart[root@node01 ~]# chkconfig httpd on安装完成后,会生成 /var/www/html目录(相当于Tomcat的webapps目录)2、下载下边两个包,并放到 /var/www/html/flink目录 (需要在 /var/www/html先建 f...
原创
发布博客 2022.03.18 ·
1171 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

spark sql / dataframe 二次排序,多字段排序问题

问题:spark sql / dataframe 日常操作中经常需要全局二次排序或者说针对多个字段排序然后输出到一个文件中,直接使用 order by 达不到想要的结果,只是分区内有序。解决:在sql中使用distribute by A_字段 sort by A_字段,B_字段 如果是dataframe,就先将dataframe注册为临时表,再使用sqldf.createOrReplaceTempView("temp_tb")spark.sql("select * from tem
原创
发布博客 2022.02.25 ·
1975 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Windows 如何使用 netcat (杀毒软件删掉了nc.exe情况)

问题:windows 从netcat 1.11 for Win32/Win64 下载 netcat 后,杀毒软件删掉了 nc.exe解决: 从Download the Free Nmap Security Scanner for Linux/Mac/Windows下载 nMap 并安装1、2、安装后可以使用 ncat.exe...
原创
发布博客 2022.01.26 ·
4958 阅读 ·
4 点赞 ·
0 评论 ·
9 收藏

sparkStreaming yarn-cluster消费到了数据但没有处理

现象:sparkStreaming 作业 local[*] 可以正常消费到数据并处理,但提交到yarn-cluster后只消费到数据但没有处理,从 Streaming Statistics 可见只有消费到数据,但没有处理原因: 提交命令时只配置了1个 container ,确切的说是1个 core ,该 core 被分配用于消费数据,没有core可以用来处理,通过executor界面可以看到spark-submit --master yarn-cluster --num-executors.
原创
发布博客 2021.06.21 ·
185 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Ambari 集群重启后,HDFS 报告警 NameNode Last Checkpoint

现象:Ambari 集群重启后,HDFS 报告警 NameNode Last Checkpoint解决:在其中一台服务器依次执行下边三条命令(HDFS用户)hdfs dfsadmin -safemode enterhdfs dfsadmin -saveNamespacehdfs dfsadmin -safemode leave
原创
发布博客 2021.03.22 ·
661 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Ambari 使用的 Mysql Gelera 集群的机器重启后,集群启动不了

现象:Ambari 集群所在的服务器要下电,下电前忘记手动停止 Mysql Gelera 集群。上电后,Ambari 启动失败,因为连接不到对应的 Mysql 。发现 Mysql 集群未启动。手动启动 Mysql 将其中一个节点的引导地址置空然后执行systemctl start mysqld没有反应,日志也无报错。再次 reboot 该节点,reboot 完后,mysql 报错It may not be safe to bootstrap the cluster fro..
原创
发布博客 2021.03.22 ·
262 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Ambari Yarn ResourceManager 无法停止及启动

现象:通过 Ambari 安装了 Yarn HA,一段时间后,Ambari报连接不上其中一个服务器的 ResourceManager 警告。去该服务器上看,没有相关的 ResourceManager 进程。在Ambari界面重启,在停止阶段失败。直接启动也失败。在该服务器通过命令yarn-daemon.sh start resourcemanager 启动后,警告消失。但通过这种方法启动的 ResourceManager 跟在Ambari界面启动的不一样,导致Ambari接管有些问题:Ya.
原创
发布博客 2021.03.19 ·
1271 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

spark sql 开窗函数加条件

需求:如下图 test.csv,dataframe 中每行都需要添加前边跟后边最近的的 SSSSSSS* 记录对应的值。解决方案:无法通过 lead, lag 等方法实现,因为开窗函数选定的数据框无法加上条件思路 - 通过两次 Join 分别找到前后最近的 SSSSSS*记录,代码如下var df = spark.read.option("header", "true").csv("C:\\Users\\XXX\\Desktop\\test.csv") // 读取文件df = df.
原创
发布博客 2021.03.10 ·
1165 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

linux 使用 arcpy

linux 要想使用 arcpy,需要先安装 arcigs server。安装arcigs server 需要 安装包和授权文件。(以104版本为例)1,ArcGIS_for_Server_Linux_1041_151978.tar.gz2,arcgis104.ecp安装步骤:1,yum install xorg-x11-server-Xvfb2,创建用户组arcgisgroupadd arcgis3,创建用户ags (安装不能用root用户)useradd -g arcgis.
原创
发布博客 2020.11.19 ·
1526 阅读 ·
1 点赞 ·
2 评论 ·
1 收藏

linux ssh 报错 WARNING: REMOTE HOST IDENTIFICATION HAS CHANGED!

现象:ssh 到其他服务器时报错:WARNING: REMOTE HOST IDENTIFICATION HAS CHANGED!解决:ssh-keygen -f "/root/.ssh/known_hosts" -R 192.168.X.X
原创
发布博客 2020.11.11 ·
197 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

pyspark 写入csv 文件报错 org.apache.hadoop.io.nativeio.NativeIO$Windows.createFile。。。

现象:pyspark 写入windows本地csv文件报错后报错org.apache.hadoop.io.nativeio.NativeIO$Windows.createFile。。。解决:删除hadoop-common-2.6.0/bin 里的hadoop.dll
原创
发布博客 2020.09.23 ·
480 阅读 ·
0 点赞 ·
1 评论 ·
1 收藏

pyspark 报错 TypeError: must be real number, not Column

现象:pyspark 需要添加一列 distance(距离),distance 需要基于四列的值(原经度,原纬度,现经度,现纬度)计算得来。def calculateS(lng1,lat1,lng2,lat2): lng1, lat1, lng2, lat2 = map(radians, [lng1, lat1, lng2, lat2]) dlon=lng2-lng1 dlat=lat2-lat1 a=sin(dlat/2)**2 + cos(lat1) * cos...
原创
发布博客 2020.07.31 ·
1075 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

idea 运行 scala 报错 object apache is not a member of package org

现象:idea 运行scala项目报错object apache is not a member of package org解决:
原创
发布博客 2020.07.28 ·
5394 阅读 ·
2 点赞 ·
2 评论 ·
4 收藏

sqoop 迁移 oracle 数据到 hive ,卡住 Connecting to jdbc:hive2://

现象:sqoop 迁移 oracle 数据到 hive ,卡在Connecting to jdbc:hive2://....解决:在 /etc/hive/conf 增加 beeline-hs2-connection.xml 内容如下:<?xml version="1.0"?><?xml-stylesheet type="text/xsl" href="configuration.xsl"?><configuration><propert..
原创
发布博客 2020.07.02 ·
1227 阅读 ·
1 点赞 ·
1 评论 ·
2 收藏
加载更多