- 博客(31)
- 收藏
- 关注
原创 mysql binlog操作日志打满存储
由于 mysql 配置没有设置 操作日志的过期清除策略,导致存储打满。解决方法:1.mysql启动不了手动删除部分操作日志,重启mysql2.mysql 服务正常 1>直接修改操作日志过期删除策略:expire_logs_days = 3 #自动删除3天前的日志。默认值为0,表示从不删除。log-bin=mysql-bin #注释掉之后,会关闭binlog日志...
2022-01-27 14:41:05 1537
原创 hive sql
1 三个分组排序函数1 row_number() over([partition by col1] [order by col2]) 1 2 3 2 rank() over([partition col1][order by col2]) 1 ...
2022-01-10 11:52:07 198
原创 sparkstreaming读取kafka消息的两种方式
sparkstreaming 消费kafka数据的 kafkautil 提供两种创建dstream的方法:1 老版本的createStream方法2 新版本的createDirectStream方法通过createDirectStream方法创建出来的dstream的rdd partition 和 kafka 的topic的partition是一一对应的,通过低阶API直接从kafka的topic消费消息,并行计算效率高,默认将偏移...
2022-01-06 17:04:44 1120
原创 hive脚本开发
#!/bin/bashsourceName=$1writeName=$2dt=$3dtValue=$4hive -e "set spark.app.name=clean_distinct_transfer_dept;set spark.executor.instances=5;set spark.executor.memory=10g;set spark.executor.cores=2;set spark.driver.memory=8g;insert overwrite table.
2021-12-07 14:27:13 529
原创 schedule
1 理想情况下,应用对Yarn资源的请求应该立刻得到满足,但现实情况往往资源是有限的,特别是在一个很繁忙的集群,一个应用资源的请求经常需要等待一段时间才能得到相应的资源。2 在yarn中负责给应用分配资源的就是schedule3 yarn 架构 1 Resource Manager(RM) : 1 构成: ① Schedule ...
2021-12-01 18:39:24 1255
原创 sqoop 脚本配置
#!/bin/bashecho "`date`"' - Begin import table: dhc-app.or_anaesthesia_incr'import_log_file=$1inner_report_file=$2export HADOOP_CLIENT_OPTS="-Xmx1g $HADOOP_CLIENT_OPTS"hive -e "drop table if exists nfyy_dhcapp_20210422_1_incr.or_anaesthesia;"/bigda.
2021-11-30 18:17:46 478
原创 数据采集工具调研
sqoop 1 采用map-reduce计算框架进行导入导出,采用map-reduce框架同时在多个节点进行import或者export操作 2 用于 关系型数据库和hadoop组件之间进行数据迁移 , 不支持hadoop相关库组件、rdbms之间数据抽取操作 3 对hadoop支持度好 4 sqoop只支持官方提供的指定几种关系型数据库和hadoop组件之间的数据交换 5 数据库同步两种方式,1,JDBC的连接 √ 2,使用数据库提供的工具 ...
2021-11-30 18:03:50 213
原创 dbeaver
1dbeaver简介DBeaver是一个集成的数据库客户端工具。提供一个图形界面用来查看数据库结构、执行SQL查询和脚本,浏览和导出数据等等。2使用环境及连接配置 2.1使用环境Windows环境 2.2连接配置配置说明:1 文件->新建2 依次按照下面截...
2021-11-30 17:19:32 3446 2
原创 hdfs 跨集群数据迁移
distcp#!/bin/bashDB=$1#获取hive表定义ret=$(hive -e "use ${DB};show tables;"|grep -v _es|grep -v _hb|grep -v importinfo)for tem in $ret;do echo $tem if [ "$tem" != "tab_name" ];then hive -e "use ${DB};show create table $
2021-11-29 14:58:32 843
原创 Hbase
Hbase 是由三种类型的server组成的主从式(master-slave)架构:1 几个角色: 1 Region server 负责处理数据的读写请求,客户端请求数据时直接和Region server交互 2 Hbase Master 负责Region的分配,DDL(创建、删除table)等操作 3 Zookeeper,作为Hadoop的一部分,负责集群状态的维护2 关于数据存储: 1 Hadoop DataNode 负责存...
2021-11-22 10:18:07 1253
原创 大数据质量解决方案
GriffinApache Griffin 定位为大数据的数据质量监控工具,支持多种批处理数据源,其中支持hive就已经解决了在数仓领域遇到的数据质量控制的场景问题。1 解决 数据质量监控 的思路: 模型驱动,基于目标数据集合或者源数据集,用户可以选择不同的数据质量维度来执行目标数据质量的验证。2 支持两类数据源 1 批数据 2 准实时数据3 可以做到的监控 1 度量 精确度、完整性、及...
2021-11-19 17:43:32 1850
原创 MPP架构设计
MPP 即大规模并行处理(Massively Parallel Processor)。 1 在数据库非共享集群中,每个节点都有独立的磁盘存储系统和内存系统 2 业务数据根据数据库模型 和 应用特点划分到各个节点上 3 每台数据节点通过专用网络互相连接,彼此协同计算,作为整体提供数据库服务优点: 1 非共享数据库集群有完全的 可伸缩性、高可用、高性能、优秀的性价比、资源共享等优势。 2 通过并行查询处理来提...
2021-11-19 16:01:48 820
原创 增量合并全量
insert overwrite table nfyy_tn_20210228_1_union.mr_observations PARTITION(dt='2021-03-01')(select obs_updatehospital_dr,obs_consult_dr,obs_ispartogram from nfyy_dhcapp_20210228_1_full.mr_observations awhere 0=(select count(1) from nfyy_dhcapp_20210301_.
2021-11-18 17:43:50 353
原创 集群运维脚本
集群运维的几个脚本:1 xcall.sh#! /bin/bashfor i in nfcls8 nfcls7 nfcls6 nfcls5 nfcls4 nfcls3 nfcls2 do echo --------- $i ---------- ssh $i "source /etc/profile;$*" done2 xsync.sh#!/bin/bash#1 获取输入参数个数,如果没有
2021-11-18 11:40:10 170
原创 hive 工作总结2
1 hive 的文件存储格式TEXTFILE SEQUENCEFILE AVRO RCFILE ORC PARQUET 1 分类 面向行的: TEXTFILE、SEQUENCEFLIE、AVRO 面向列的 RCFILE、ORC、PARQUET 2 两种分类的区别 ...
2021-11-18 11:18:55 686
原创 hive 工作总结1
hive 优化数据倾斜、数据冗余、job的IO以及不同底层引擎配置情况和Hive本身参数和HiveSQL的执行1 hive本身参数的配置优化: 1 针对小文件过多的配置: 输入、输出端合并 输入:更改hive的输入文件格式,参数名称是 hive.input.format 默认值是org.apache.hadoop.hive.ql.io.HiveInputF...
2021-11-17 17:21:12 211
原创 hive架构及工作原理
1 hive架构1.1 组成及作用用户接口: clientcli(hive shell)、jdbc/ODBC(java访问hive)、webUI(浏览器访问hive) 元数据meta store 表所属的数据库 表名 列、分区字段 表的类型 表所在的数据目录 注:默认存储在自带的Derby数据库中,一般使用mysql出处Metastore 底层存储: HDFS 计算:MapReduce 驱动器Driver:接收/响应客户端请求 解..
2021-11-17 15:11:24 230
原创 Presto
1 presto概述 presto 是 分布式 SQL 查询引擎2 核心概念协调者coordinator 解析语句 规划查询 管理work节点 使用REST API与work节点通信,从work节点获取结果并最终返回给客户端 工作者 work 执行任务 处理数据 从connector获取数据并相互交换中间数据 work工作进程启动时 ,它会将自己告诉 协调器 中的 发现服务服务器discover,...
2021-11-16 17:58:39 116
原创 hive 字段构造map结构
01 构建字符串 k:v 结构 字段处理:concat_ws(',',collect_list(concat_ws(':',ht.data_column,ht.data_value)))) 效果:"key1:100,key2:200,key3:300,..."02 字符串 k:v结构转为map结构字段处理:str_to_map(concat_ws(',',collect_list(concat_ws(':',ht.data_column,...
2021-11-05 18:41:33 2374
原创 VMware 虚机启动失败问题
环境: 1win10家庭版问题1: 虚拟化未开启:VMware Workstation 与 Device/Credential Guard 不兼容!解决办法: 1.首先保证主板已经开启虚拟化 2.看此原文链接https://blog.csdn.net/luckysign/article/details/101915064Win10家庭版解决方法:1、按下WIN+R打开运行,然后输入ser...
2020-10-24 16:48:28 2275
原创 Cleaning up unclosed ZipFile for archive
打包时报错:Cleaning up unclosed ZipFile for archive错误原因:maven打包时内存配置不够用解决: 1、自定义配置打包命令,在其中配置“”
2020-08-12 09:59:04 8143
原创 ERROR spark.SparkContext: Error initializing SparkContext org.apache.hadoop.security.AccessControlEx
问题截图:发现是普通用户xy对 /user节点没有写权限,于是使用chmod命令给该节点添加权限。
2020-08-06 11:14:18 523
原创 不良 : Cloudera Manager Agent 的日志目录位于可用空间小于 1.0 吉字节 的文件系统上。 /var/log/cloudera-scm-agent(可用:434.8 兆字节 (
问题现象: 不良 : Cloudera Manager Agent 的日志目录位于可用空间小于 1.0 吉字节 的文件系统上。 /var/log/cloudera-scm-agent(可用:434.8 兆字节 (0.86%),容量:49.1 吉字节)解决: 挂载问题 可以参考,这篇博客做思考调整“/dev/mapper/VolGroup-lv_root”目录的大小: ...
2020-08-05 17:58:32 1538
原创 httpd服务引出的问题
No such file or directory: AH01597: could not open mime types config file /etc/httpd/conf/mime.types. AH00016: Configuration Failed find文件 cp到指定目录下 /usr/sbin/httpd: error while loading shared libraries: libaprutil-1.so.0: cannot open shared object.
2020-07-22 15:29:36 588
原创 时钟同步引起的yum源问题
问题引出:在配置crontab时发现没有这个服务,所以安装crontab,但是安装中出现“no package crontab available.”,于是开始配置本地yum源 在/etc/yum.repos.d 目录下: 删除所有文件 在阿里云下载yum源包: wget -O /etc/yum.repos.d/CentOS-Base.repo http://mirrors.aliyun.com/repo/Centos-6.repo 清除yum缓存 yum clean all .
2020-07-21 11:14:59 226
转载 IntelliJ IDEA 下载安装以及破解--引用
https://blog.csdn.net/qq_36318234/article/details/80502957
2018-08-14 15:24:49 209
原创 zookeeper集群搭建--启动集群报错记录
启动的顺序是slave-01>slave-02>slave-03,由于ZooKeeper集群启动的时候,每个结点都试图去连接集群中的其它结点,先启动的肯定连不上后面还没启动的,所以上面日志前面部分的异常是可以忽略的。通过后面部分可以看到,集群在选出一个Leader后,最后稳定了。其他结点可能也出现类似问题,属于正常! zookeeper集群搭建参考博客:https://bl...
2018-08-02 17:46:15 433
转载 git冲突解决方法
转载 http://blog.csdn.net/afeionepiece/article/details/45695411 关于 git 的基本使用,可以参考 git-简易指南,这篇介绍了git的基本使用,但是对多人协作的时候,合并冲突的解决没有详细的介绍。本文结合自己使用的场景进行介绍 使用场景:用户A和B在不同的电脑协同工作,使用github进行代码托管,使用仓库se...
2017-10-26 17:14:29 8533 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人