mysql binlog操作日志打满存储 由于 mysql 配置没有设置 操作日志的过期清除策略,导致存储打满。解决方法:1.mysql启动不了手动删除部分操作日志,重启mysql2.mysql 服务正常 1>直接修改操作日志过期删除策略:expire_logs_days = 3 #自动删除3天前的日志。默认值为0,表示从不删除。log-bin=mysql-bin #注释掉之后,会关闭binlog日志...
hive sql 1 三个分组排序函数1 row_number() over([partition by col1] [order by col2]) 1 2 3 2 rank() over([partition col1][order by col2]) 1 ...
sparkstreaming读取kafka消息的两种方式 sparkstreaming 消费kafka数据的 kafkautil 提供两种创建dstream的方法:1 老版本的createStream方法2 新版本的createDirectStream方法通过createDirectStream方法创建出来的dstream的rdd partition 和 kafka 的topic的partition是一一对应的,通过低阶API直接从kafka的topic消费消息,并行计算效率高,默认将偏移...
hive脚本开发 #!/bin/bashsourceName=$1writeName=$2dt=$3dtValue=$4hive -e "set spark.app.name=clean_distinct_transfer_dept;set spark.executor.instances=5;set spark.executor.memory=10g;set spark.executor.cores=2;set spark.driver.memory=8g;insert overwrite table.
schedule 1 理想情况下,应用对Yarn资源的请求应该立刻得到满足,但现实情况往往资源是有限的,特别是在一个很繁忙的集群,一个应用资源的请求经常需要等待一段时间才能得到相应的资源。2 在yarn中负责给应用分配资源的就是schedule3 yarn 架构 1 Resource Manager(RM) : 1 构成: ① Schedule ...
sqoop 脚本配置 #!/bin/bashecho "`date`"' - Begin import table: dhc-app.or_anaesthesia_incr'import_log_file=$1inner_report_file=$2export HADOOP_CLIENT_OPTS="-Xmx1g $HADOOP_CLIENT_OPTS"hive -e "drop table if exists nfyy_dhcapp_20210422_1_incr.or_anaesthesia;"/bigda.
数据采集工具调研 sqoop 1 采用map-reduce计算框架进行导入导出,采用map-reduce框架同时在多个节点进行import或者export操作 2 用于 关系型数据库和hadoop组件之间进行数据迁移 , 不支持hadoop相关库组件、rdbms之间数据抽取操作 3 对hadoop支持度好 4 sqoop只支持官方提供的指定几种关系型数据库和hadoop组件之间的数据交换 5 数据库同步两种方式,1,JDBC的连接 √ 2,使用数据库提供的工具 ...
dbeaver 1dbeaver简介DBeaver是一个集成的数据库客户端工具。提供一个图形界面用来查看数据库结构、执行SQL查询和脚本,浏览和导出数据等等。2使用环境及连接配置 2.1使用环境Windows环境 2.2连接配置配置说明:1 文件->新建2 依次按照下面截...
hdfs 跨集群数据迁移 distcp#!/bin/bashDB=$1#获取hive表定义ret=$(hive -e "use ${DB};show tables;"|grep -v _es|grep -v _hb|grep -v importinfo)for tem in $ret;do echo $tem if [ "$tem" != "tab_name" ];then hive -e "use ${DB};show create table $
Hbase Hbase 是由三种类型的server组成的主从式(master-slave)架构:1 几个角色: 1 Region server 负责处理数据的读写请求,客户端请求数据时直接和Region server交互 2 Hbase Master 负责Region的分配,DDL(创建、删除table)等操作 3 Zookeeper,作为Hadoop的一部分,负责集群状态的维护2 关于数据存储: 1 Hadoop DataNode 负责存...
大数据质量解决方案 GriffinApache Griffin 定位为大数据的数据质量监控工具,支持多种批处理数据源,其中支持hive就已经解决了在数仓领域遇到的数据质量控制的场景问题。1 解决 数据质量监控 的思路: 模型驱动,基于目标数据集合或者源数据集,用户可以选择不同的数据质量维度来执行目标数据质量的验证。2 支持两类数据源 1 批数据 2 准实时数据3 可以做到的监控 1 度量 精确度、完整性、及...
MPP架构设计 MPP 即大规模并行处理(Massively Parallel Processor)。 1 在数据库非共享集群中,每个节点都有独立的磁盘存储系统和内存系统 2 业务数据根据数据库模型 和 应用特点划分到各个节点上 3 每台数据节点通过专用网络互相连接,彼此协同计算,作为整体提供数据库服务优点: 1 非共享数据库集群有完全的 可伸缩性、高可用、高性能、优秀的性价比、资源共享等优势。 2 通过并行查询处理来提...
增量合并全量 insert overwrite table nfyy_tn_20210228_1_union.mr_observations PARTITION(dt='2021-03-01')(select obs_updatehospital_dr,obs_consult_dr,obs_ispartogram from nfyy_dhcapp_20210228_1_full.mr_observations awhere 0=(select count(1) from nfyy_dhcapp_20210301_.
集群运维脚本 集群运维的几个脚本:1 xcall.sh#! /bin/bashfor i in nfcls8 nfcls7 nfcls6 nfcls5 nfcls4 nfcls3 nfcls2 do echo --------- $i ---------- ssh $i "source /etc/profile;$*" done2 xsync.sh#!/bin/bash#1 获取输入参数个数,如果没有
hive 工作总结2 1 hive 的文件存储格式TEXTFILE SEQUENCEFILE AVRO RCFILE ORC PARQUET 1 分类 面向行的: TEXTFILE、SEQUENCEFLIE、AVRO 面向列的 RCFILE、ORC、PARQUET 2 两种分类的区别 ...
hive 工作总结1 hive 优化数据倾斜、数据冗余、job的IO以及不同底层引擎配置情况和Hive本身参数和HiveSQL的执行1 hive本身参数的配置优化: 1 针对小文件过多的配置: 输入、输出端合并 输入:更改hive的输入文件格式,参数名称是 hive.input.format 默认值是org.apache.hadoop.hive.ql.io.HiveInputF...
hive架构及工作原理 1 hive架构1.1 组成及作用用户接口: clientcli(hive shell)、jdbc/ODBC(java访问hive)、webUI(浏览器访问hive) 元数据meta store 表所属的数据库 表名 列、分区字段 表的类型 表所在的数据目录 注:默认存储在自带的Derby数据库中,一般使用mysql出处Metastore 底层存储: HDFS 计算:MapReduce 驱动器Driver:接收/响应客户端请求 解..
Presto 1 presto概述 presto 是 分布式 SQL 查询引擎2 核心概念协调者coordinator 解析语句 规划查询 管理work节点 使用REST API与work节点通信,从work节点获取结果并最终返回给客户端 工作者 work 执行任务 处理数据 从connector获取数据并相互交换中间数据 work工作进程启动时 ,它会将自己告诉 协调器 中的 发现服务服务器discover,...