自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(40)
  • 问答 (3)
  • 收藏
  • 关注

原创 FlinkCDC能读取到快照,但是无法输出更新数据,并行度的设置问题

发现是并行度问题,当我的并行度超过1的时候就无法捕获更新。目前并没有找到具体原因,只能单独设定并行度。FlinkCDC能读取到快照,但是无法输出更新数据。如有大佬路过求告知。

2023-08-11 22:14:04 690

原创 Folium实战——数据可视化

一、结果展示数据汇聚结果会根据地图的放大/缩小,进行离散/聚合。不同种类无法聚合,有需要可以自己添加。右上角搜索框,可以指定搜索列搜索框下面可以指定选择图层。二、源码因为涉及公司业务,不做完全展示。import jsonimport pandas as pdimport foliumfrom folium.plugins import MarkerClusterfrom folium.plugins import Search# 先读取excel文件数据,创建dfdf4 =

2021-12-07 15:15:08 2630 4

原创 Python读取CSV/EXCEL文件,自动编写MySQL建表语句

一、功能介绍1、选择csv文件夹,遍历这个文件夹下的所有csv文件,csv文件名作为表名。这个文件夹下只能有csv文件,不能继续往下遍历文件夹。2、可以设置表名对应的表注释 get_table_comment(),有需要自己设置。3、可以设置csv表头对应的标准列名 get_en(),有需要自己设置。二、先上源码import pandas as pd# import easygui as g # 导入EasyGui模块import getpassimport osimport tkint

2021-11-24 18:12:14 5767 1

原创 Scala 通过读取HDFS上的文件创建SparkRDD出现的问题

一、Could not locate executable null\bin\winutils.exe in the Hadoop binaries.如果本机操作系统是Windows,如果在程序中使用了Hadoop相关的东西,比如写入文件到HDFS,则会遇到该异常出现这个问题的原因,并不是程序的错误,而是用到了hadoop相关的服务,解决办法:1、在本机上解压对应版本的hadoop压缩包不太清楚别的版本压缩包行不行,bin里面要有winutils.exe如果没有,请自行前往下载对应版本https

2021-11-19 15:23:57 1411

原创 使用Docker镜像安装MySQL

零、默认Docker环境搭建完毕一、MySQL镜像1、拉取镜像去Docker Hub上搜索对应的镜像https://registry.hub.docker.com/以MySQL-5.7.25为例Tag这里搜索对应的版本即可。使用右侧命令拉去镜像。docker pull mysql:5.7.25等待执行完成,然后使用docker images 即可看到刚才下载的镜像二、启动容器docker run -p 3309:3306 -dit -e MYSQL_ROOT_PASSWO

2021-10-14 15:58:07 451

原创 Pandas数据统计函数

Pandas数据统计函数汇总类统计函数唯一去重和按值计数相关系数和协方差0、数据准备import pandas as pdfpath = "../datas/beijing_tianqi/beijing_tianqi_2018.csv"df = pd.read_csv(fpath)# 显示前三行数据df.head(3)# 字符串处理# 字符串替换并改变数据类型df.loc[:, "bWendu"] = df["bWendu"].str.replace("℃", "").as

2021-10-12 12:02:16 145

原创 Docker安装与部署

一、Docker安装centos下安装docker其他系统参照如下文档https://docs.docker.com/engine/install/centos/1、移除以前docker相关包sudo yum remove docker \ docker-client \ docker-client-latest \ docker-common \ doc

2021-10-11 11:17:39 137

原创 阿里云盘——多电脑实时同步文件的实现

一、使用的工具使用阿里云盘和一个工具(让阿里云盘变成本地磁盘)工具链接:我用阿里云盘分享了「阿里云盘变本地硬盘.exe」,你可以不限速下载????复制这段内容打开「阿里云盘」App 即可获取链接:https://www.aliyundrive.com/s/76ZnDoLcsEn二、搭建步骤1、安装软件先安装阿里云网盘,然后安装上面分享的这个软件。安装成功后,一定要勾选“查阅localhost:9798”这个选项!随后,工具会打开一个本地网页服务作为配置:localhost:9798后

2021-09-15 17:19:50 43884 12

原创 DolphinScheduler执行SQL报错:CommunicationsException: Communications link failure

一、出现的问题目标数据库的数据源已经添加完成,测试通过,相关权限也已经赋予对应的用户了。但是在执行SQL节点的时候还是会报错,连接失败。二、解决方法创建数据源的时候添加参数“useSSL” : “False”...

2021-08-26 13:32:48 974

原创 DolphinScheduler发送不了邮件:java.lang.RuntimeException: send mail failed!

一、出现的问题在测试DolphinScheduler的时候,执行SQL语句报错。原配置文件使用的是QQ邮箱,就一直报这个错误。这个是发送邮件失败然后查看了配置文件,没有任何错误。二、解决方法1、可能是25号端口没有解封需要去申请解封,这是腾讯云官方的解封步骤https://cloud.tencent.com/document/product/213/40436?from=145882、换一种邮箱作为发件邮箱我使用了腾讯企业邮箱修改配置文件:conf/alert.properties如

2021-08-26 11:47:34 1148

原创 DolphinScheduler集群安装部署

本次安装的是1.3.5版本,为生产环境三节点集群,具体可参考官方网站手册quick-start (apache.org)一、前置要求MySQL 5.7 : MySQL则需要JDBC Driver 5.1.47+JDK1.8以上,配置好环境变量Zookeeper(3.4.6+)Hadoop(2.6+):选装,如果不用Hadoop可不安装如上要求是根据官网配置要求,且我自己选用组件二、下载并解压安装包1、地址:Apache Download Mirrors下载完,上传到服务器上2、解

2021-08-25 17:17:47 1090 1

原创 Linux创建用户、赋root权限、sudo免密、配置主机名、配置hosts

一、创建用户并赋予Root权限、Root免密登录1、创建用户#创建用户adduser lcq#设置密码passwd lcq2、Root权限vim /etc/sudoers如我一样添加上一行3、免密登录vim /etc/sudoers找到这一行,然后添加上去你自己的二、配置主机名 及 对应服务器别名1、hosts文件添加别名sudo vim /etc/hostsip Masterip Worker01ip Worker022、修改主机名sudo vim /

2021-08-25 14:26:10 631

原创 Hive初始化源数据库失败:Schema initialization FAILED! Metastore state would be inconsistent

一、出现的问题执行hive初始化源数据库出现问题schematool -initSchema -dbType mysql -verbose然后报错Schema initialization FAILED! Metastore state would be inconsistent二、解决方法1、先删除多出来的2个文件/文件夹有个d***.log(刚才忘了记录一下,忘了叫啥名),rm -rf metastore_db2、看一下数据库里面的metastore数据库应该是没有表的,如果有,就

2021-08-25 13:28:29 7837 2

原创 Hive任务被阻塞,配置yarn多队列

一、出现的问题hive客户端开着,shell脚本中的hive任务启动不起来。二、解决方法在Yarn中额外配置一条队列,hive客户端中的任务提交到这个新的队列中vim $HADOOP_HOME/etc/hadoop/capacity-scheduler.xml<!--修改:添加hive队列,然后把容量调整一下,看你个人--><property> <name>yarn.scheduler.capacity.root.queues</name&g

2021-08-25 10:54:08 961

原创 ssh-copy-id卡住

一、出现问题将公钥拷贝到要免密登录的目标机器上的时候出错,卡了很久,然后提示already installedattempting to log in with the new key(s), to filter out any that are already installed二、解决方法1、内网不通先Ping 一下,测试一下网络2、公钥已存在删除目标服务器上的公钥文件在 ~/.ssh目录下...

2021-08-24 14:48:04 4073

原创 清理kdevtmpfsi、dbused挖矿木马程序

一、出现的问题今天早上一看服务器集群,cpu被占满,Hadoop集群被干爆,然后top一下,看到占用最高的是kdevtmpfsi,另一个节点是dbused占满。搜了一下,都是挖矿程序。二、解决思路网上很多的方法都试了,但是挖矿进程还是不断重启。像1、关闭守护进程(后面没有守护进城了,木马进程还是会重启)2、删除/tmp/下相关的文件(看名字,和木马进程差不多)3、删除crontab内容(会被植入定时程序,我关闭了crontab,但是木马程序依旧重启)4、修改木马文件权限(会换个名字继续来,原

2021-08-24 11:53:57 736

原创 Hadoop压测失败:/bin/bash: /bin/java: No such file or directory

一、出现的问题在进行hadoop读写压力测试的时候出现问题。报错:/bin/bash: /bin/java: No such file or directoryjob创建完之后MR任务还没有跑起来就挂了二、解决方法在yarn-env.sh中添加上Java环境变量export JAVA_HOME=/opt/module/jdk1.8.0_212...

2021-08-23 13:52:00 1345 2

原创 Hbase集群安装部署及遇到的问题

安装包hbase-2.2.4版本链接:https://pan.baidu.com/s/1-ZUMAOu7Zgo_47a8YuYnrA提取码:1111连接挂了私信或者留言,有需要其他安装包的也可留言前置条件jdk1.8及以上安装了zookeeper安装了hadoop上述环境变量都配置好了一、安装部署1、解压 tar -zxvf hbase-2.2.4-bin.tar.gz -C /opt/module2、重命名mv /opt/module/hbase-xxx /opt/modul

2021-08-19 16:10:54 445

原创 dolphinScheduler启动失败

一、出现的问题今天启动dolphinScheduler,发现其所有服务都没有启动然后去查看日志,发现对应服务的日志全部都有这个报错ERROR in ch.qos.logback.core.rolling.RollingFileAppender[APILOGFILE] - openFile(logs/dolphinscheduler-api-server.log,true) call failed. - java.io.FileNotFoundException: logs/dolphinsched

2021-08-19 13:33:48 4473 1

原创 ModuleNotFoundError: No module named ‘dataclasses‘--Superset安装初始化数据库失败

一、出现的问题在安装superset,初始化数据库的过程中superset db upgrade出现问题,报错如上。二、问题原因缺少dataclasses这个module,需要安装一下。三、解决方法pip install dataclasses然后重新初始化数据库即可出现这些info即代表成功...

2021-08-18 10:37:37 8099

原创 dolphinSchedule登录失败

一、出现的问题今天登录dolphinScheduler的时候,一直卡在登录界面,小圈圈一直转,最后提示登录失败。二、解决方法我的问题是数据库服务启动失败看看你的数据库服务是否启动service mysqld status如果不能启动,去看一下mysql日志cat /var/log/mysqld.logInnoDB: Ignoring the redo log due to missing MLOG_CHECKPOINT between the checkpoint 90115203 an

2021-08-17 11:07:12 2879

原创 dolphinscheduler如何执行脚本

一、上传脚本将需要执行的脚本上传到资源中心备注:创建文件夹/上传文件需要使用别的账号登录。admin账户默认没有租户。二、创建工作流在资源这里选择需要的脚本,也可以全选。注意:这里点击哪个资源,哪个资源就会被取消勾选。三、执行工作流上线执行即可执行完,看工作流实例,里面有没有变绿色。如果报错,就去看看日志哪里出了问题...

2021-08-12 10:34:48 2219 1

原创 unable to instantiate org.apache.hadoop.hive.ql.metadata.sessionhivemetastoreclient

一、出现的问题Hive报错unable to instantiate org.apache.hadoop.hive.ql.metadata.sessionhivemetastoreclient。一开始以为是源数据服务没有启动,去启动源数据服务进入hive/bin目录,然后执行 ./hive --service metastore &源数据服务启动失败,抱了一堆错MetaException(message:Error creating transactional connection

2021-08-09 16:40:28 1499

原创 dolphionSchedule 创建文件夹,文件时提示租户不存在

解决方法我使用的是admin账号,没有绑定租户。使用别的账户绑定租户即可,正常不要用admin账户操作。日志里面是看不出来有问题的[INFO] 2021-08-09 15:32:58.907 org.apache.dolphinscheduler.api.controller.ResourcesController:[92] - login user admin, create resource, type: FILE, resource alias: test, desc: , file: -1,

2021-08-09 15:45:01 1509

原创 dolphinSchedule创建租户失败——解决方案(仅供参考)

如图,创建租户权限不足。我不知道dolphinScheduler访问hdfs的用户在哪设置,群里面问了也没有结果。我试过修改install_config.conf 里面的配置,如下,但并不是。如果有知道的大佬路过,还请指教一下。hdfsRootUser="lcq"后来我换了思路,我修改不了user=root,那我就给root用户在hdfs上的supergourp权限。这个方法可以成功,步骤如下:操作步骤如下:1、在hadoop节点所在的linux里,一个用户,因为我用的是root,所以这.

2021-08-06 13:19:30 5157

原创 Failed to create Spark client for Spark session

问题原因:可能是队列阻塞了,开了一个hive客户端,然后外面还在跑hive的脚本任务,就会导致阻塞。解决方法:可以单独将不同任务放在不同的队列里面,比如hive客户端里面的任务就设置一个单独的队列,外面的脚本在default队列里面即可。...

2021-08-02 14:38:14 3702

原创 向接口发送POST请求,获取数据(以toshare为例)

一、先上结果token隐藏了,有需要自己注册toshare账号。官网:https://tushare.pro/二、使用介绍这里请求的是 shibor 接口,别的接口可以自己换。源代码和maven依赖在后面。使用http方式请求,就必须使用POST方式官网上给我们提供好了http API,如下:输入参数:api_name:接口名称,比如stock_basictoken :用户唯一标识,可通过登录pro网站获取params:接口参数,如daily接口中start_date和end_date

2021-07-28 18:15:41 1089

原创 一打开虚拟机,windows就蓝屏重启

一打开虚拟机,windows就蓝屏重启终止代码SYSTEM_SERVICE_EXCEPTION。问题原因:安装了win10的 KB4584229这个补丁解决方法:一(最简单):升级vmware到16.1以上。二:卸载这个补丁,不要安装

2021-07-19 17:08:11 9735 24

原创 ERROR: Invalid HADOOP_COMMON_HOME

启动Hadoop、Yarn时报错/start-yarn.shERROR: Invalid HADOOP_COMMON_HOME解决方法:1、首先查看JAVA_HOME是否配置正确javajavac2、然后再查看配置HADOOP_HOME是否配置正确

2021-04-28 14:20:48 1357

原创 Kafka的Topic删不掉

1、修改 kafka/config/server.properties文件,将delete.topic.enable设置为true然后重启2、如果已经设置为true,那么查看是否有生产者或者消费者在使用该topic,如果正在使用,那么即使删除了该topic,还会被创建,但是数据被清空。...

2021-04-25 16:53:03 1112 3

原创 Kafka(三)——eagle监控器配置

四、Kafka监控——Eagle1、修改kafka启动命令kafka/bin vim kafka-server-start.sh修改if [ "x$KAFKA_HEAP_OPTS" = "x" ]; then export KAFKA_HEAP_OPTS="-Xmx1G -Xms1G"fi为:if [ "x$KAFKA_HEAP_OPTS" = "x" ]; then export KAFKA_HEAP_OPTS="-server -Xms2G -Xmx2G -XX:Per

2021-04-23 15:12:21 414

原创 Kafka(二)——架构学习

Kafka深入 ———学习尚硅谷Kafka课程视频笔记1、Kafka工作流程1.1、结构生产者生产的消息还会不断追加到log的末尾,如果log文件过大,则会导致数据定位效率低下。因此,Kafka有了分片和索引机制一个partition对应多个Segment。一个Segment有一个index和一个log文件,这些文件位于一个文件夹下。1.2、工作流程Kafka的消息以topic分类。topic是一个逻辑上的概念,log文件是实际产物。生产者

2021-04-23 11:50:28 159

原创 MySQL不能通过别名引用整个子查询

MySQL 只能通过别名引用所定义的子查询的字段,不能通过别名引用整个子查询如下列SQL,不行,会报错,t2不存在select Student.Sname, t2.SId, t2.avgscfrom Student, (select t1.SId SId,avg(t1.score) avgsc from (select SId, score from SC where score < 60) t1 group by t1.SId) t2where Student

2021-04-22 17:39:58 703

原创 Kafka(一)——架构和基础操作

一、Kafka架构1、消息队列(Message Queue)1.1、点对点模式一对一,消费者主动拉取数据,消息收到后消息清除生产者将消息发送到Queue中,然后消费者从queue里拉取数据,一条消息被消费了之后,queue就删除了该消息。虽然queue支持存在多个消费者,但是一条消息只有一个消费者能消费到1.2、发布/订阅模式一对多,消费者消费数据之后不会清除数据生产者将消息发布到topic中,同时有多个消费者消费该消息,topic里面的消息会被所有消费者消费Kafka基于发布/订阅模式

2021-04-22 14:49:36 84

原创 Linux将自己写的脚本全局化

进入脚本目录,执行:sudo ln xxx.sh /usr/local/bin

2021-04-22 14:29:58 639 2

原创 Kafka/flume集群启动脚本无效

使用脚本启动kafka无效脚本如下for i in hadoop102 hadoop103 hadoop104doecho "========== $i ==========" ssh $i '/opt/module/kafka/bin/kafka-server-start.sh -daemon /opt/module/kafka/config/server.properties'echo $?done使用后在hadoop104 jps一把,发现没有Kafka进程,去监控Kafka日志,

2021-04-22 11:51:52 635

原创 Flume学习笔记

Flume学习笔记​ ——学习尚硅谷视频笔记1、架构1.1、Agent一个Agent为一个JVM线程:由source,channel,sink三部分组成1.2、source用于收集数据,支持多种数据源avro、thrift、exec、jms、spooling directory、netcat、sequence generator、syslog、http、legacy。1.3、channelchannel用于存储source传过

2021-04-20 18:22:48 256 1

原创 kettle报错,没有权限向hdfs写文件

Caused by: org.apache.commons.vfs2.FileSystemException: Could not create file编辑Spoon.bat文件,在119行添加如下:“-DHADOOP_USER_NAME=xxx” “-Dfile-encoding=UTF-8”注:xxx为自己的用户名

2021-04-14 14:57:42 1103

原创 MySQL存储过程-学习笔记

一、存储过程1、概念1.1、含义相当于Java中的方法1.2、优点减少了编译次数,减少了和数据库服务器的连接次数,提高了效率提高代码的重用性二、语法1、创建语法create procedure 存储过程名(参数列表)begin 存储过程体(一组合法的SQL语句)end注意:参数列表包含三部分参数模式参数名参数类型举例:IN stuname varchar(20)参数模式:IN:该参数可以作为输入,也就说需要调用方传入值OUT:该参数可以作为输出,也就

2021-04-09 16:44:06 81

原创 JAVA--集合

集合框架集合按照其存储结构可以分为两大类,单列集合java.util.Collection、双列集合java.util.Map一、CollectionCollection集合框架的体系Collection常用功能1.public boolean add(E e):把给定的对象添加到集合中2.public void clear():清空集合中的所用元素,但是集合仍然在。3.publi...

2020-03-17 14:55:13 199

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除