- 博客(387)
- 资源 (8)
- 收藏
- 关注
原创 Linux常用命令大全(非常全面)
目录一、进程管理二、系统信息三、关机 (系统的关机、重启以及登出 )四、文件和目录五、文件搜索六、挂载一个文件系统七、磁盘空间八、系统负载 -- top九、用户和群组十、文件的权限 - 使用 "+" 设置权限,使用 "-" 用于取消十一、文件的特殊属性 - 使用 "+" 设置权限,使用 "-" 用于取消十二、打包和压缩文件十三、OS包管理器①、RPM 包 - (Fedora, Redhat及类似系统)②、YUM 软件包升级.........
2019-03-06 17:38:16 214991 14
原创 Linux常用命令实践
1.scp 文件迁移Remote Server-->Local filescp -p port user@remoteserverip:/home/user/filename /home/user/filename各部分含义:p 为端口参数;port为具体端口号;user 为ssh user;remoteserverip为远程服务器ip或者...
2013-12-25 14:46:55 807
原创 Hive内置集合函数-size,map_keys,map_values,sort_array,array_contains
Hive提供的内置集合函数, 在做一些集合内统计/查找/分析等场景下非常方便, 熟练使用, 可以极大的简化这类场景的开发.
2024-09-19 23:27:59 365
原创 DataWorks+MaxCompute跨年取日期所在周的问题
一些数据分析业务需求中,如订单金额、订单数量,时间粒度需要统计到周,如周同比,周环比。一般我们都会事先创建一个类似如下的时间维度表。在统计中,我们一般会按照 “年-周” 方式来组织成周格式,再与业务事实表join起来进行度量值的聚合计算。以2019年年尾、2020年初数据为例你会发现根据这种方式计算,为什么 “2020-01” 的数据消失了?其实不仅是年初的第1周,而且年尾的第53周也可能会消失。
2024-05-31 20:41:40 849
原创 在VSCode中运行Python脚本文件时如何传参
第3 步在很多PC 上会显示“创建一个launch.json文件”的提示,很可惜在我的 PC 上json 字符所在位置不仅不是超链接,而且显示的是翻译过来的“启动.json”字符。选择之后,在新生成的 settings.json 文件的生成模板中却不到 Python 相关的配置选项,没关系, 将上述 launch.json 中的文本内容,复制到这里即可。选择VSCode中左侧竖排第四个 Debug 按钮,如果是首次在软件中运行 Python 程序,则在运行和调试单元框里很可能看到的提示是如下这样的。
2023-12-07 11:58:18 2896
原创 Hive3 on Spark3配置
之后,将 HDFS 路径“hdfs://cdh01:8020/spark-jars/*”下的原始 “zstd-jni-1.4.4-3.jar” 删除,并替换为 “zstd-jni-1.4.9-1.jar” 后(如上图所示),经再度测试,该问题就解决了。:Hive既作为存储元数据又负责SQL的解析优化,语法是HQL语法,执行引擎变成了Spark,Spark负责采用RDD执行。: Hive只作为存储元数据,Spark负责SQL解析优化,语法是Spark SQL语法,Spark负责采用RDD执行。
2023-11-09 00:35:06 2430 1
转载 Excel零基础使用(For 2021版Excel)
一、基本操作1.保护设置基本操作2)利用自定义列表填充 文件>选项>高级>编辑自定义列表3)填充柄:鼠标右键下拉4)同时编辑多个单元格(连续和不连续) Ctrl+鼠标左键,Ctrl+Enter补全5)文本记忆输入 右键>从下拉列表中选择6)数据验证 数据>数据验证>验证条件>允许(序列)>来源(1.自定义内容选项用英文逗号隔开 2.内容可以是区域范围但只可以是一行或一列)3.导入数据导入外部数据数据选项卡 -> 从文本/CSV。
2023-08-15 07:36:06 784
原创 GitHub高效搜索技巧
使用体验和本地的VSCode完全一致,不仅可以随时切换文件来阅读,享受代码高亮提示,快捷跳转,代码搜索,甚至可以安装插件来增强编辑器的功能。(Windows/Linux) | 打开 GitHub 命令面板。如果要编辑 Markdown 文本,请使用。几乎 GitHub 上的每一页都有键盘快捷键,可以更快地执行操作。在github的Explore(探索)界面中,代码竟然在一个网页版的VScode中打开了。github暗藏了一个命令面板。有关更多键盘快捷键,请参阅。直接在仓库详情页按下。按钮–>获取邮件更新。
2023-06-25 10:32:49 3853
原创 MacOS怎么查看进程占用内存是多少
在Linux下可以使用 free 命令来方便的查看内存占用情况,但MacOS下没有这个命令。那么该如何查看整个PC的内存占用情况,及指定进程的内存占用情况呢?
2023-06-07 11:24:35 5646
原创 Hive CLI启动报错Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient
一般这种情况是由于 metastore 服务未开启所致。
2023-05-28 23:08:10 403
原创 Keyboard shortcuts of VS Code on MacOS
Command + K Command + Shift + Right 右移编辑器。Command + K Command + Shift + Left 左移编辑器。Command + Shift + Option + Right 列选择 向右。Command + Shift + Option + Down 列选择 向下。Command + Shift + Option + Left 列选择 向左。Command + Shift + Option + Up 列选择 向上。
2023-04-05 18:03:45 398
转载 Hive 分桶
分桶表是对列值取哈希值的方式,将不同数据放到不同文件中存储。对于 hive 中每一个表、分区都可以进一步进行分桶。由列的哈希值除以桶的个数来决定每条数据划分在哪个桶中。适用场景:对比 MR 的 HashPartition 数据抽样( sampling )
2022-11-24 17:49:02 1030
原创 虚拟机CentOS7启动报错:Entering emergency mode
L:使用xfs_repair命令将日志强制清零(即使包含脏数据,这将更改元数据信息)
2022-08-20 23:03:15 2770
原创 Flink二阶段提交
XA(eXtended Architecture)是指由X/Open 组织提出的分布式交易处理的规范。XA 是一个分布式事务协议,由Tuxedo 提出,所以分布式事务也称为XA 事务。XA 协议主要定义了事务管理器TM(Transaction Manager,协调者)和资源管理器RM(Resource Manager,参与者)之间的接口。其中,资源管理器往往由数据库实现,如Oracle、DB2、MySQL,这些商业数据库都实现了XA 接口,而事务管理器作为全局的调度者,负责各个本地资源的提交和回滚。....
2022-08-10 09:06:20 4174
原创 HBase2.x安装部署+整合Phoenix
提示如果集群之间的节点时间不同步,会导致regionserver无法启动,抛出ClockOutOfSyncException异常。b、属性hbase.master.maxclockskew设置更大的值。hdfs用户可以通过sudo切换到root。修改HBase对应的配置文件。...
2022-07-25 14:17:37 673
原创 Phoenix中常用shell操作
加了双引号就必须用小写表名去查否则查不到。列名不区分大小写,显示是大写,用小写依然查得到。(1)表名和列族名以及表名如果需要小写都得加双引号。两个双引号,第一个是索引的名称,第二个是原表的名称。(2)这样创建出来的列族名称和列名都是大写的。Include括号里面是包含要返回的列是哪些。这边的索引字段为deviceID。.........
2022-07-25 12:13:15 1607
转载 阿里云Redis开发规范
本文介绍了在使用阿里云Redis的开发规范,从键值设计、命令使用、客户端使用、相关工具等方面进行说明,通过本文的介绍可以减少使用Redis过程带来的问题。
2022-07-24 10:37:58 186
原创 Redis集群搭建(基于6.x)
这里实验3主3从方式的redis集群,需要启动6个redis实例,分别部署在3台服务器上(如果机器数量少,也可以在一台Server上通过指定不同的端口号来模拟),每台服务器启动两个redis实例(一主一从),主实例的端口号为7000,从实例的端口号为7001.运行clusterinfo命令发现节点的状态是fail的(不是所有的节点状态都是fail的,只有异常的节点运行命令状态才是fail,其他正常的节点运行命令返回的状态是OK,所有要排查所有的节点)创建redis集群启动文件。...............
2022-07-24 09:30:25 330
原创 ClickHouse引擎之-MaterializeMYSQL
使用MaterializeMySQL存储引擎,需要一下先决条件1.支持mysql库级别的数据同步,暂不支持表级别的。2.MySQL库映射到clickhouse中自动创建为ReplacingMergeTree引擎的表3.支持全量和增量同步,首次创建数据库引擎时进行一次全量复制,之后通过监控binlog变化进行增量数据同步4.支持的MySQL版本5.支持的操作insert,update,delete,alter,create,drop,truncate等大部分DDL操作。......
2022-07-21 09:34:42 1194
原创 ClickHouse的安装
下载地址https//repo.clickhouse.tech/rpm/stable/x86_64/的注释打开,这样的话才能让ClickHouse被除本机以外的服务器访问。在这个文件中,有ClickHouse的一些默认路径配置,比较重要的。官网https//clickhouse.yandex/注意如果安装过zabbix,需要禁用一些服务的开机自启。-m可以在命令窗口输入多行命令。在dn4、dn5上执行以上操作。......
2022-07-19 16:54:02 933
原创 Phoenix5连接Hbase2.x长时间卡住(但不报错)
执行上述命令,启动phoenix, 长时间卡住, 但不报错:可能的原因有:经查询, 上述原因的1、3都不是我这边的触发原因.考虑到此前我本地通过ClouderaManager, 已经安装过parcels版本的hbase(版本号: 1.2.0+cdh5.16.2).新安装的2.x版本, 可能与老版本在元数据上并不兼容.由于本地是使用VMWare搭建的虚拟机集群, 且hbase数据仅用于实验目的. 故采用暴力方式处理(如果是prod, 且hbase中已经存储了重要数据, 请仔细查找直接原因, 同时做好数据备份
2022-07-13 18:18:03 1632
转载 HBase Shell命令大全2
HBase的名字的来源于Hadoop database,即hadoop数据库,不同于一般的关系数据库,它是非结构化数据存储的数据库,而且它是基于列的而不是基于行的模式。HBase是一个分布式的、面向列的、基于Google Bigtable的开源实现。利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为协同服务。HBase以表的形式存储数据。表有行和列组成。列划分为若干个列族/列簇(column family),每个列
2022-07-13 16:26:47 1004
原创 Flume 数据采集
(1)在/home/bigdata_admin/bin目录下创建脚本xcall.sh[bigdata_admin@hadoop102 bin]$ vim xcall.sh(2)在脚本中编写如下内容(3)修改脚本执行权限[bigdata_admin@hadoop102 bin]$ chmod 777 xcall.sh(4)启动脚本[bigdata_admin@hadoop102 bin]$ xcall.sh jps1)安装步骤略2)项目经验(1)项目经验之HDFS存储多目录虚拟机的项目不需要配置,我们只
2022-07-12 14:26:25 3724
原创 Maxwell配置案例
以下环境需要提前在VMWare虚拟机中搭建完成:设置软链接:新建日志目录:1.2 数据库相关信息(数据源)数据库编号数据库名称数据库IP数据库PORT备注1maxwell111.111.111.1113306Maxwell元数据库, binlog : master.0000012gmall111.111.111.1123306业务数据库(在线商城)1.3 Kafka相关信息(数据落地)MQ编号MQ 列表1dn3:9092,d
2022-07-12 12:00:34 2276
原创 flume-ng启动报错: java.lang.NoClassDefFoundError: org/apache/hadoop/conf/Configuration
java.lang.NoClassDefFoundError: org/apache/hadoop/conf/Configurationflume-ng 启动后错误如下:flume配置flume数据ETL配置文件:原因分析启动flume的serve上没有安装hadoop, 没有配置hadoop的环境变量.导致flume启动时无法查找到所需的hadoop依赖.export HADOOP_HOME=/home/hadoop/apps/hadoop-2.6.5export PATH=PATH:PATH
2022-07-10 22:02:16 1843
转载 Flink知识点大全总结
全文总计6万字、110个知识点、160张原理、流程图。提纲如下:01、Flink 基础篇Flink是一个以 流 为核心的高可用、高性能的分布式计算引擎。具备 流批一体,高吞吐、低延迟,容错能力,大规模复杂计算等特点,在数据流上提供 数据分发、通信等功能。数据流:所有产生的 数据 都天然带有 时间概念,把 事件 按照时间顺序排列起来,就形成了一个事件流,也被称作数据流。流批一体:首先必须先明白什么是 有界数据 和 无界数据有界数据,就是在一个确定的时间范围内的数据流,有开始,有结束,一旦确定就不会再改变,一
2022-07-08 15:02:09 10982 4
原创 IDEA全局搜索快捷键(ctrl+shift+F)失效修复
最近不知道做了什么设置, 原先功能好好的IDEA全局搜索快捷键(ctrl+shift+F), 突然失效不能用了.作为IDEA最为常见的快捷键不能用, 只能通过快捷菜单组合(Idea菜单"Edit" --> Find --> Find in Path)键来使用, 这怎么可以忍.于是查询了一下, 发现一般都是输入法惹得鬼.如果未使用第三方输入法, 而是直接使用微软默认输入法的话, 步骤如下:如果使用了第三方输入法,如搜狗输入法, 步骤如下:......
2022-06-29 18:09:56 6854 1
原创 MySQL定时整库备份&滚动删除指定日期前的备份数据
实现如下MySQL备份功能:vim /data/backup/scripts/MySQL_Backup.sh
2022-06-29 11:59:19 1168
原创 MySQL中json_extract函数说明
在日常业务开发中通常mysql数据库中某个字段会需要存储json格式字符串,查询的时候有时json数据较大,每次全部取出再去解析查询效率较低,也比较麻烦,则Mysql5.7版本提供提供函数json_extract,可以通过key查询value值(如果是json数组类型,可以通过下标获取对应位置的值),比较方便。Mysql5.7版本以后新增的功能,Mysql提供了一个原生的Json类型,Json值将不再以字符串的形式存储,而是采用一种允许快速读取文本元素(document elements)的内部二进制(in
2022-06-23 10:40:56 31462
azkaban-binary-2.5.0二进制安装包(含Web + executor + sql等全部模块)
2020-11-20
logstash-6.3.2.zip
2020-01-02
RedisWindowsAllinone.zip
2019-11-05
kafka-manager-1.3.3.23.zip
2019-07-02
jdk-8u191-linux-x64.tar.zip
2019-05-15
pip安装脚本(支持python2、python3)
2019-02-13
shipyard 一键部署脚本
2018-11-14
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人