- 博客(447)
- 资源 (7)
- 收藏
- 关注
原创 Python日期带时区转换工具类总结
刚开始思绪有点乱,刚好趁机会好好的整理了一遍思路。注意: 当使用日期进行格式转换时,需要确定这个日期对应的时区。时区的设置python的日期中时区对应的有个属性timezone。我这里主要是通过pytz.timezone(“时区字符串”)来设置时区的。比如,要将日期转为时间戳,首先要指定这个日期的时区属性。日期设置然后通过localize方法配置这个日期的时区。再进行其他的转换。但是千万要注意,不要使用datetime中的.replace方法来设置时区。
2023-05-29 11:22:11
789
1
原创 Knife4j文档请求异常(更新)
除了最后两个"/log/*“,”/admin/system/index/login/"是日志和登录接口以外,其他的都需要放行。我的是common一个单独的模块,在common模块中配置了WebMvcConfig。不在启动类上,而是加到了其他模块的注解中,可能会导致这种情况发生。在SpringBoot项目中,如果是分不同的模块开发。那么,解决方法也很简单,在启动类上也添加上注解。然后在WebMvcConfig类上面加了注解。白名单设置的不全或者不一致导致的。
2023-05-15 11:08:09
264
原创 【五一创作】Springboot+多环境+多数据源(MySQL+Phoenix)配置及查询(多知识点)
除了在yml中配置spring.datasource.mysql或者spring.datasource.phoenix自定义数据源以外,还需要再java中单独配置数据源。新建config文件夹,针对不同的数据源进行单独的配置。
2023-04-30 22:13:09
1181
4
原创 pyspark-shell开启多行粘贴
pyspark-shell在/home/用户/目录下,新建一个隐藏文件 .inputrc然后填入set enable-bracketed-paste offspark-shell注意:上面的设置只支持pyspark的代码,发现不支持scala的版本。scala的版本,还是必须手工敲 :paste 来解决,按ctrl+D结束。...
2023-04-19 16:46:00
30
原创 解决Spark读取tmp结尾的文件报错的问题
flume采集文件到hdfs中,在采集中的文件会添加.tmp后缀。一个批次完成提交后,会将.tmp后缀重名名,将tmp去掉。所以,当Spark程序读取到该hive外部表映射的路径时,在出现找不到xxx.tmp文件的问题出现。
2023-04-14 18:07:58
62
原创 瑞吉外卖知识点总结(2)
SpringCache也提供了一层抽象接口,底层可以切换不同的cache实现类,接口名称是CacheManager。这里要注意验证码是在后台生成好的。我原来一直以为手机里的验证码是运营商生成的,原来是错误的。(5)后台根据前端填写的验证码和手机号和后端去匹配,如果一致就通过,否则,返回错误信息。SpringCache是一个基于注解的缓存功能,只要简单的加一个注解,就能实现缓存功能。点开Define remote,输入在gitee创建的库的地址,(2)后台接收请求,验证手机号,生成验证码。
2023-03-25 03:11:53
425
原创 SyntaxError: multiple statements found while compiling a single statement
这是一个非常头疼的问题,必须手工一行行粘贴,才可以调试程序。
2023-03-24 14:42:45
230
原创 (固态硬盘)虚拟机安装Win7操作系统
我的笔记本是固态硬盘,要安装个win7操作系统做一些测试,刚开始怎么将光驱加载下载的ISO文件,启动时总是失败。大概是下面这样的显示。我尝试过修改启动时从CDROM加载,还是从UEFI启动都不行。以下是记录具体的可行性方案的步骤。
2023-03-19 14:10:53
481
原创 hive中牛逼的映射
CREATE TABLE IF NOT EXISTS jsontest( date STRING, channel STRING, machine STRING, resolution STRING, display STRING, ip STRING, lat STRING, lng STRING, device_key STRING, ...
2023-03-14 19:34:00
14
原创 Phoenix表重建流程
hbase表,通过phoeix建表映射,创建phoenix表时,使用的主键字段为rowkey。所以查询时不能使用rowkey字段。
2023-03-14 17:59:14
192
原创 idea中Mybatis xml文件背景色调整
打开设置,在Editor -> Inspections ,在右边找到SQL。现在看到的SQL没有难看的背景色了。下拉,找到下面两个选项,将√去掉。
2023-03-09 11:04:27
186
原创 跨集群表数据迁移
1.Spark方式从老集群写到新集群spark.table("ods.test").write.mode("overwrite").save("hdfs://192.20.10.10/tmp/tabledata/ods_test")从新集群生成hive表:spark.read.parquet("hdfs://192.20.10.10/tmp/tabledata/ods_test/").w...
2023-02-02 10:41:00
18
原创 Spark saveAsTable写入表会提示表已存在的问题
使用以下方式写入表时,如果表不存在,但是表的hdfs目录下存在文件时会报错df.write.mode("overwrite").partitionBy("pk_hour").saveAsTable("dw.test")可以在Spark的参数中添加下面配置,以下仅仅是Spark2中生效:spark.sql.legacy.allowCreatingManagedTableUsingNonemp...
2023-02-02 10:31:00
54
原创 使用Python清理历史文件夹
根据修改时间,删除文件夹。例如:删除某个日期之前的文件夹。# -*- coding: utf-8 -*-# @Time : 2023/1/9 19:34# @Author : King# @Software: PyCharm# @Describe: # -*- encoding:utf-8 -*-import osimport timeimport shutil...
2023-01-09 20:42:00
15
原创 Conda安装py3spark环境操作
查看虚拟环境conda env list创建虚拟环境conda create -n py3spark python=3.6删除虚拟环境以及虚拟环境中所有包conda remove -n py3spark --all在虚拟环境中安装包conda install -n py3spark pyarrow=0.9.0conda install -n py3spark numpy=1.16...
2023-01-05 17:25:00
31
原创 CDH配置Flume无法失效的问题
在使用过cdh6.3.1版本的flume时,配置了从kafka消费写入hdfs,使用的是FileChannel。使用FileChannel还是考虑到数据可靠性。但是今天在配置的时候,一直不生效。由于我在配置FileChannel时,在指定的Agent的服务器上去设置目录。这里必须将该目录的owner用户设置为hdfs,否则就会导致不生效。但是在后台的日志信息中看不到任何消息的。chow...
2023-01-03 21:56:00
23
原创 Flink使用TableAPi方式读取和写入Hive
(1)验证了Hive中org.openx.data.jsonserde.JsonSerDe格式的表是可以直接读取数据出来的。以下是一个简单的参考实例,用来验证通过FlinkSQL来跑批方式清洗Hive数据可行的。(4)将清洗完的流数据转为表,再通过SQL方式插入到hive中。(2)通过TableAPI方式读取Hive表。(3)表转流操作,以及在流中做数据清洗。
2022-12-21 18:13:05
471
原创 org.apache.spark.sql.AnalysisException: Can not create the managed table
spark执行过程中偶发性出现错误。Traceback (most recent call last): File "/dfs/data9/nm-local-dir/usercache/hadoop/appcache/application_1666879209698_29104/container_e26_1666879209698_29104_01_000001/pyspark.zip...
2022-12-07 17:36:00
45
原创 hive和trino中的爆炸函数lateral view explode与cross join unnest用法
遇到一个不规则的json如下:trace是数组,外面2个time,hash都是单个字段。所以通过hive建表如下,trace使用了array包裹了struct结构:create external table xy_ods.ods_address_trace(trace array<struct<action:string,blockHash:string,blockNumbe...
2022-12-05 17:47:00
45
原创 (实验性质的) hadoop fsck健康检查副本异常信息Target Replicas is 3 but found 2 live replica(s)...
之前下架过节点,导致副本数量不全,再做健康检查时,发现许多这样的信息。当然这样的信息并不是一定有问题,比如以下目录副本数就只有一个;执行的flink的任务时,/flink/job/目录hbase的一些tmp临时目录 /hbase/tmp上传的jar包程序 /jars/Under replicated BP-1555553207-10.0.50.200-1625229209582:blk...
2022-12-01 15:58:00
14
原创 hadoop节点下线的问题
注意:以下操作都是理论上的,由于我安装的是apache hadoop3.1.3 原生版本,所以按照以下操作时,全部不生效最后只能通过手工停止datanode,nodemanger,停止节点。然后修改works,在HA模式下,先停1个namenode,然后重启。再停另外个namenode,再重启。20230214: 第二次操作生效了!!!!。不同点在于需要将两个namenode节点中的wo...
2022-11-29 15:01:00
17
原创 spark中生成时间序列数据的函数stack和sequence
用Sequence函数生成时间序列函数,真的是非常简便易用,之前因为没找到,所以走了不少弯路。
2022-11-23 09:57:28
575
原创 Hbase balance是个啥
1. 均衡操作以1.4.9版本为例,默认balance策略是开启状态。如果关闭,在Ui会出现如下警告:The Load Balancer is not enabled which will eventually cause performance degradation in HBase as Regions will not be distributed across all Region...
2022-11-18 15:41:00
9
原创 Hadoop单个节点的磁盘均衡
一般默认都开启了磁盘均衡,但是我这种状况特殊,公司给的初始磁盘大小不一样。我只是试验下,我这种情况能否做数据的分散。看下图,disk10已经91%了,剩余空间88G,但是从磁盘存储的数据来看,还是比较均衡的。如果在两者之差在10G的范围内,那么块分配的方式是轮询。在此节点的所有数据存储的目录中,找一个占用最大的,找一个占用最小的。通过调整以上2个参数,应该就可以达到我们期望的效果了。PLAN_UNDER_PROGRESS 计划进行中。以下参数是配置各个磁盘的均衡阈值的,默认为10G。
2022-11-17 12:25:39
354
原创 Hbase单节点多RegionServer服务配置
将hbase目录拷贝后命名为hbase2,然后在hbase2中做如下修改。1.hbase-site.xmlhbase的默认端口是16020和16030,所以这里使用16120和16130。<property> <name>hbase.regionserver.port</name> <value>16120</val...
2022-11-09 14:32:00
56
原创 shell脚本实现Hbase服务的监控报警和自动拉起
期初是我们的物理机上安装了Hbase,由于物理机硬件配置还可以,1T内存,64核。只有4台机器,我们装完Hbase后,发现应用请求比较多,导致RegionServer经常挂掉。但是机器本身资源使用率并不高,因此我们希望在一个节点上启用多个RegionServer服务。如果一个节点启动2个RegionServe服务,那么通过服务监控方式就无法监控每个服务,所以改用了端口监控的方式。当服务出现异常挂掉后,可以自动报警,并自动拉起该服务。
2022-11-09 13:54:39
817
原创 Hbase Region in Transition解决方法
问题:hbase集群请求超负载,导致HRegionServer服务宕掉,出现Region in Transition状态重启后,如果Region in Transition一直存在很长时间,需要查看是否被某个producer锁住。hbase修复工具下载地址这里是源码,需要自己下载编译成jar包。https://github.com/apache/hbase-operator-tools...
2022-10-27 19:31:00
35
原创 Hbase工具类-API操作
1. HbaseUtil工具类Hbase虽然提供了相关的API,但是在实际使用过程中还是非常麻烦,因此根据官方的API封装对应的工具类,从而简化开发操作。package com.kingimport java.math.BigDecimalimport java.utilimport com.alibaba.fastjson.JSONObjectimport com.king.c...
2022-10-20 16:55:00
36
原创 Hbase API操作
Hbase虽然提供了相关的API,但是在实际使用过程中还是非常麻烦,因此根据官方的API封装对应的工具类,从而简化开发操作。另外定义了连接配置信息Phoenix相关的工具类。
2022-10-20 16:52:51
527
原创 Hbase参数调优
zookeeper.session.timeout: 默认值90000毫秒(90s)。当某个RegionServer挂掉后,90s之后Master才能察觉到。可适当减少此值,尽可能块的检测regionServer故障,可调整值20-30s。也可以调整中间等待多少秒后重试,以及重试次数。hbase.client.pause(默认值100ms) 等待多少秒hbase.client.retries.number(默认15次) 重试次数。
2022-10-20 16:20:46
489
原创 hive中使用hive原生的json报错的问题
默认我们使用的hive自带的json包格式,创建表时格式为:CREATE EXTERNAL TABLE `ods.ods_test`(...)ROW FORMAT SERDE 'org.apache.hive.hcatalog.data.JsonSerDe' STORED AS text;此时如果json格式有问题,查询整个表就会出错。所以我们使用第三方的json包来替换。...
2022-09-29 12:45:00
518
原创 MySQL在线实现主从配置
前提是主库的MySQL开启了Binlog,不然需要修改配置,然后重启MySQL1.主库配置[mysqld]max_allowed_packet=1024Mserver-id=1log-bin=mysql-binbinlog_format=row# 必须为FULL,MySQL-5.7后才有该参数binlog_row_image = FULLexpire_logs_days...
2022-09-22 01:23:00
149
原创 如何在大数据集群中手工增加一个节点
当运维丢给你一台新装的操作系统,本文将记录手工添加一个节点需要做哪些具体的操作,当前的版本是apache hadoop,未使用CDH版本。1 系统环境设置1.1 修改hostname根据IP设置对应节点的名称,比如增加一个192.168.1.130节点作为数据节点。临时设置:hostname hadoop-130永久设置:vim /etc/hostname 中添加hadoop-13...
2022-09-17 10:57:00
821
原创 org.apache.iceberg.exceptions.NotFoundException: Failed to open input stream for file:hdfs://ns1/use...
做机器迁移,导致flink程序写iceberg失败,原因是hive的元数据存储库mysql停了一段时间。然后flink出现以下异常,org.apache.iceberg.exceptions.NotFoundException: Failed to open input stream for file: hdfs://ns1/user/hive/warehouse/iceberg_ods.d...
2022-09-15 13:10:00
730
原创 Have smaller server identifier, so dropping the connection: (2, 1)
有5个zk节点,有1个节点查看状态一直报错:ZooKeeper JMX enabled by defaultUsing config: /home/hadoop/bigdata/zk/bin/../conf/zoo.cfgClient port found: 2181. Client address: localhost.Error contacting service. It is p...
2022-09-14 23:42:00
758
linux-study4
2008-11-03
linux-study3
2008-11-03
linux-study2
2008-11-03
linux study
2008-11-03
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人