- 博客(474)
- 资源 (2)
- 收藏
- 关注
转载 Hive优化
<article class="baidu_pl"> <div id="article_content" class="article_content clearfix"> <link rel="stylesheet" href="https://csdnimg.cn/release/blogv2/dist/mdeditor/css/editerView/kdoc_html_views-1a98987dfd.css"> &l
2024-03-26 11:28:12 213
转载 linux分区满了,如何进行扩容
2. 下图可以看到,硬盘空间增大为53.7GB,在设备那里可以看到有两个分区,sda1跟sda2(请忽略sda3)。接着用 dh –f,发现实际容量并没有变化,因为我们的系统还不认识刚刚添加进来的磁盘的文件系统,所以还需要对文件系统进行扩容。这里一定要写比25大的数,因为他是“增加到”50GB,而不是“增加了25GB”图片中可以看到挂载点“/”的利用率移到100%,空间不够,所以要对其进行分区。键入命令:lvextend -L +24G 加上要扩展的分区名。键入:n (增加分区)
2023-07-26 20:17:24 1652
原创 Dinky flink cdc 报 unexpected block data 解决办法汇总
解决办法:flink-connector-mysql-cdc:2.1.0替换为flink-sql-connector-mysql-cdc:2.1.0 。dinky目录下的plugins目录必须和flink lib目录jar包相互一致,比如dinky下有flink-sql-connector-mysql-cdc:2.1.0 , 则把flink-sql-connector-mysql-cdc:2.1.0 也上传到flink lib目录下,重启flink和dinky即可。类加载顺序问题,flink默认是
2023-06-15 15:39:33 1127
原创 chcp永久修改控制台字符编码
计算机\HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Command Processor。win+r 输入regedit进入注册表。右键新建字符串值,名字为autorun。值为chcp 65001。
2023-01-13 16:21:59 1113 1
原创 Vscode Python:Select:Interpreter command ‘python.setInterpreter‘ not found
参考链接:https://blog.csdn.net/m0_56738500/article/details/127144144。在使用ctrl+shift+P后使用Python:Select:Interpreter切换解释器出错。在左侧扩展栏目中搜索@workspaceUnsupported。发现python在限制在受限模式下。然后选择信任,问题解决。
2023-01-10 21:48:19 1821
原创 jmap 和jstack使用
jmap是JDK提供的一个可以生成Java虚拟机的堆转储快照dump文件的命令行工具1.查看整个JVM内存状态2.查看JVM堆中对象详细占用情况3.导出整个JVM 中内存信息,可以利用其它工具打开dump文件分析,例如jdk自带的visualvm工具。
2023-01-02 12:01:44 2329
转载 kex_exchange_identification: Connection closed by remote host Connection closed by 198.18.0.114 port
第一步,先去查了一下是不是SSH的私钥过期了, 但查了一下并没有问题。这时候你按照网上的教程:删除SSH公钥,然后重新生成的公钥,配置到GitHub,应该都是不好使的。第三步,查了一下关于关于git端口设置的相关问题, 参考了几个技术问答的答案, 最后解决的方式就很简单了。直接配置SSH访问的端口号就好。第二步,思考了一下近期的操作,使用新的梯子,设置了TUN模式代理了全局, 有可能造成了端口变化, 导致了git基于SSH拉取出了问题。可以放弃SSH方式, 换用HTTPS方式来读取和拉取代码。
2022-11-04 16:12:34 8663 5
转载 shell 实现目录下文件修改记录监控
文件监控可以配合rsync实现文件自动同步,例如监听某个目录,当文件变化时,使用rsync命令将变化的文件同步。(可用于代码自动发布),安装以后有两个命令可以用inotifywait 和 inotifywatch,inotifywait 是需要使用的命令。inotify 是linux内核的一个特性,在内核 2.6.13 以上都可以使用。使用nohup,其中test.sh为所执行的脚本,out.txt为输出信息的地方。这个脚本的功能是循环监听文件或目录的增删改事件,当事件发生执行设置的脚本文件。
2022-11-04 10:25:24 604
转载 kafka整合lua消费不到数据解决方案
用lua脚本将前端页面获取到的数据塞给kafka,kafka不报错,nginx不报错,lua脚本也没有问题,topic生成了但就是消费不到数据,自己写一个生产者测试过证明消费者也没问题,折腾了很久,最后在kafka配置文件中加了host.name=本机,解决。问题应该是在识别kafka集群的时候出现了问题,谁熟悉原理帮忙解释下。
2022-11-03 00:24:31 269 1
转载 一文看懂Spark中reduceByKey 和 groupByKey 的区别
而 reduceByKey 是有聚合功能的,实现过程中,在分组前也同样满足聚合条件(有相同的key,value能聚合),那么reduceByKey是不是在分组前就将数据先进行聚合了呢?从功能上来说,都有分组,只是reduceByKey有聚合操作,而groupbykey没有聚合操作,它的聚合是通过增加map操作来实现的,所以看似也没多大区别。groupByKey只能分组,不能聚合,所以在分组聚合的场合下,推荐使用reduceByKey,如果仅仅是分组而不需要聚合,那么还是只能使用groupByKey。
2022-10-30 10:01:25 384
原创 Hive Sql执行出错 Dag submit failed due to java.io.IOException: All datanodes DatanodeInfoWithStorage
检查集群中的 Dfs.replication 属性,集群中 INFORMATICA 的最小复制因子为 3 (dfs.replication=3)。第二步:修改dfs.replication值为3(页面上操作),然后重启HDFS。根本原因是集群中的一个或多个信息块在所有节点中都已损坏,因此映射无法获取数据。如果副本数还是3,首先确认副本参数是否已经生效(第三步的命令中可以查看),第四步、手动创建一个文件,上传至HDFS,观察其副本数。第一步:将HDFS上已有文件副本数修改为3。
2022-10-25 10:17:59 1564
原创 Hive Order By、Sort By、Distrbute By、Cluster By区别
当Distribute by和Sorts by字段相同时,可以使用Cluster by方式。Cluster by除了具有Distribute by的功能外还兼具Sort by的功能。但是排序只能是升序排序,不能指定排序规则为ASC或者DESC。类似MR中Partition,进行分区,结合sort by使用。在生产环境中Sort By+ Distrbute By用的多。在生产环境中Order By用的比较少,容易导致OOM。全局排序,只有一个Reducer。
2022-10-24 14:37:32 1004
转载 Vmware虚拟机系统时间同步网络时间并登录用户自动校正时间
今天在虚拟机上测试“find /root/Text -mtime +3 -name “Service.log.*” -exec rm -f {};”,总是不成功,反复看了几遍,也对照网上格式,命令没写错,结果无意中发现系统时间是上次“挂起”的时间。VM虚拟机大家都用,我在用完后,经常使用“挂起客户机”,但是这样一来,系统恢复启动很快,但是少了正常的系统自检,包括和网络同步时间。台警大授时中心(台湾):asia.pool.ntp.org。复旦:ntp.fudan.edu.cn。重新登录用户,提示的更新。
2022-10-24 14:04:56 1647
原创 scala中:: , +:, :+, :::, +++的区别
: 该方法被称为cons,意为构造,向队列的头部追加数据,创造新的列表。用法为 x::list,其中x为加入到头部的元素,无论x是列表与否,它都只将成为新生成列表的第一个元素,也就是说新生成的列表长度为list的长度+1(btw, x::list等价于list.::(x)):+和+: 两者的区别在于:+方法用于在尾部追加元素,+:方法用于在头部追加元素,和::很类似,但是::可以用于pattern match ,而+:则不行. 关于+:和:+,只要记住冒号永远靠近集合类型就OK了。
2022-10-24 09:15:21 234
转载 Hive Lateral View使用指南
用户可以指定可选的OUTER关键字来生成行,即使LATERAL VIEW通常不会生成行。当所使用的UDTF不产生任何行时(使用explode()函数时,explode的列为空时,很容易发生上述这种情况)。如果想让源数据行继续出现在结果中,可以使用 OUTER可以用来阻止关键字,并且来自UDTF的列使用NULL值代替。如内置表生成函数中所述,UDTF为每个输入行生成零个或多个输出行。Lateral View 首先将UDTF应用于基表的每一行,然后将结果输出行连接到输入行,以形成具有提供的表别名的虚拟表。
2022-10-18 20:12:54 1411
原创 Hive SQL求用户的连续登陆天数、最大连续登陆天数、一直连续登录天数
3,日期减去序号,得到的结果是同一天,则说明是连续的。1,去重数据,保证每天有且仅有一条登陆数据。Hive中运行会报错,需要把前面空格去掉。4,取最大连续登录天数。
2022-10-18 08:49:18 895
原创 [编程题]输出元素组成数组的排列组合形式
按首列排序,首列相同,则按照第二列排序,前两列相同,则以第三列排序,以此顺序递推。一个由有限个不同元素组成的数组的所有组合排列形式。先排首列,首列相同,以第二列的顺序展示。要求排列的顺序以从小到大的顺序排列,
2022-09-22 14:09:10 400
原创 Linux空间不足、HDFS空间不足解决方法
参考https//blog.csdn.net/weixin_38425162/article/details/117570524。2、找到目录/user/root/.sparkStaging占用了大量空间,此目录下存放的是各spark历史任务依赖文件。3、执行hdfsdfs-rm-r/user/root/.sparkStaging/*查询hdfs中各目录的占用的空间,进入占用最多的目录中(一般是日志或临时文件)4、删除的文件会被保存到/user/root/.Trash,清空垃圾桶即可。...
2022-07-17 21:27:40 1343
转载 彻底搞懂 Git-Rebase
使用 Git 已经好几年了,却始终只是熟悉一些常用的操作。对于 Git Rebase 却很少用到,直到这一次,不得不用。一、起因上线构建的过程中扫了一眼代码变更,突然发现, 提交竟然多达 次。我们来看看都提交了什么东西:这里我们先不说 提交规范,就单纯这么多次无用的 就很让人不舒服。可能很多人觉得无所谓,无非是多了一些提交纪录。然而,并非如此,你可能听过破窗效应,编程也是如此!二、导致问题1.不利于代码 设想一下,你要做 ,结果一个很小的功能,提交了 多次,会不会有一些崩溃?2.会造成分支污染
2022-07-12 17:36:52 1062
原创 . java.lang.IllegalArgumentException: requirement failed: Can only call getServletHandlers on a runn
在服务器上运行Spark程序报错经过排查spark Master和Worker服务没有启动,启动之后再提交运行就正常了。
2022-07-12 10:39:14 1498
原创 Scala Array和List转ListBuffer
用to[ListBuffer]方法如何删除ListBuffer元素如果ListBuffer中有相同多个元素 只能删除一个批量删除相同元素te: scala.collection.mutable.ListBuffer[Int] = ListBuffer(1, 4, 6, 7, 8, 9, 1)ListBuffer(4, 6, 7, 8, 9)
2022-07-09 00:12:37 653
转载 自定义Spark累加器
继续跟踪LongAccumulator这个类可以看到,累加器底层其实是继承了AccumulatorV2这个方法,但是里面有两个类型参数,是什么东西呢?继续跟踪最终是这个类型,也就是说,上面的两个参数也就是一个是输入,一个是输出所以根据上面的源码可以知道,如果我们需要自定义自己的累加器的,只需要继承AccumulatorV2[IN, OUT] 这个类,然后重写其余的方法,自定义我们的逻辑即可当创建完累加器之后,在使用的时候,spark是不知道我们自定义的累加器的,所有此
2022-07-08 15:20:15 854
原创 WARN zookeeper.ZKUtil: hconnection-0x6a0e5d320x0, quorum=lylg102:2181 baseZNode=/hbase Unable to set
经过查找,这是因为客户端通过zookeeper连接到hbase时连接过多的问题将最大连接数我这设置成了300,重启下zookeeper,hbase,重新测试,问题解决。
2022-07-08 12:10:54 691
转载 There is insufficient memory for the Java Runtime Environment to continue. 使用虚拟内存
===========================================================================================环境:linux上的tomcat中部署了一个web服务,时好时坏,经常上午启动,下午就无法访问。总是莫名其妙的宕机。===========================================================================================解决步骤:目录是在你的tomca
2022-07-08 11:26:33 25053 1
原创 LeetCode 968. 监控二叉树
给定一个二叉树,我们在树的节点上安装摄像头。节点上的每个摄影头都可以监视其父对象、自身及其直接子对象。计算监控树的所有节点所需的最小摄像头数量。示例 1:输入:[0,0,null,0,0]输出:1解释:如图所示,一台摄像头足以监控所有节点。示例 2:输入:[0,0,null,0,null,0,null,null,0]输出:2解释:需要至少两个摄像头来监视树的所有节点。 上图显示了摄像头放置的有效位置之一。提示:给定树的节点数的范围是 [1, 1000]。每个节点的值都是 0。每个节点只可能三种状
2022-07-01 15:45:27 206
原创 LeetCode 108. 将有序数组转换为二叉搜索树
给你一个整数数组 nums ,其中元素已经按 升序 排列,请你将其转换为一棵 高度平衡 二叉搜索树。高度平衡 二叉树是一棵满足「每个节点的左右两个子树的高度差的绝对值不超过 1 」的二叉树。示例 1:输入:nums = [-10,-3,0,5,9]输出:[0,-3,9,-10,null,5]解释:[0,-10,5,null,-3,null,9] 也将被视为正确答案:示例 2:输入:nums = [1,3]输出:[3,1]解释:[1,null,3] 和 [3,1] 都是高度平衡二叉搜索树。提示:1
2022-06-18 16:27:43 172
原创 动漫评分数据分析与可视化 与 IT行业招聘数据分析与可视化
1,动漫评分数据分析与可视化可视化地址预览2,IT行业招聘数据分析与可视化可视化地址预览BilibiliSpider将抓取文件上传到${HIVE_HOME}/mydata目录下Hive表字段信息1.2.1 创建cartoon_info表并导入数据CREATE EXTERNAL TABLE Json( data string)加载数据到Json表中备用load data local inpath 'mydata/infos_total.json' overwrite into ta
2022-06-06 14:50:30 571
转载 用python获取可用wifi信息(windows版)
前言最近在打游戏的时候经常会遇到断网的情况,每次都需要切出去切换wifi,很烦人,所以就写了个用Python自动切换可用的wifi来减少困扰。几个系统命令这次我们是使用python中的os模块来模拟命令行来执行命令切换wifi,所以在写程序之前,可以先了解一下几个命令。查看当前wifi:netsh wlan show interfaces查看所有wifi:netsh wlan show profiles连接wifi:netsh wlan connect name=“wifi名称”思路这次我们
2022-05-19 13:25:33 3203 3
原创 GIWIFI自动登录脚本
立即尝试不需要多余的任何操作,只需要将代码里的‘name’: ‘your iphone’,‘password’: ‘password’,更换自己的手机号和密码即可。import requests,reheaders = {'Host':'login.gwifi.com.cn','Pragma':'no-cache','User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like
2022-05-19 05:09:55 4046 11
转载 Git冲突:commit your changes or stash them before you can merge.
今天用git pull来更新代码,遇到了下面的问题:error: Your local changes to the following files would be overwritten by merge:xxx/xxx/xxx.javaPlease, commit your changes or stash them before you can merge.Aborting提示已经很友好了,从网友处得到的答案直接帮我解决问题。1.stash通常遇到这个问题,你可以直接commit你的修
2022-05-17 01:10:43 188
原创 Chrome屏蔽更新
使用Fiddle抓包可知chrome更新是通过域名update.googleapis.com进行更新的只需要在hosts文件加入127.0.0.1 update.googleapis.com将update.googleapis.com的ip地址指向本机即可。再检查更新就会出错
2022-05-16 21:10:52 827
转载 增加系统右键菜单,执行bat文件
win10自定义鼠标右键多级菜单(包含桌面)--------------如果觉得博主写的可以,请关注博主--------------首先win + r 输入regedit 进去注册表然后# HKEY_CLASSES_ROOT\*\shell在shell创建一个你想要的右键文件 例如:KinokoYm 点击这个文件 在右侧的界面中,会出现一个默认的属性,或者是default 右键 点击这个文件,新建一个字符串值 #...
2022-05-15 22:27:33 3252
原创 html页面 加载完成后再刷新 一次
主要用于第一次加载页面有部分加载bug,再刷新一次即可正常运行。简单粗暴直接上代码,不带参数,0影响<Script>function refresh(){url = location.href;console.log(url);var once = url.split("#");if (once[1] != 1) {url += "#1";self.location.replace(url);window.location.reload();}}setTimeout('
2022-05-10 17:21:16 1524
原创 平分物品 笔试题练习小结
题目链接:https://www.nowcoder.com/test/question/908255677b6f4c18a9074c12f21acd59?pid=27972467&tid=56290657题目现在有n个物品,每一个物品都有一个价值,现在想将这些物品分给两个人,要求这两个人每一个人分到的物品的价值总和相同(个数可以不同,总价值相同即可),剩下的物品就需要扔掉,现在想知道最少需要扔多少价值的物品才能满足要求分给两个人。要求:时间复杂度,空间复杂度输入描述:第一行输入一个.
2022-05-10 16:33:48 269
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人