bigdata_ruiye
码龄7年
关注
提问 私信
  • 博客:50,687
    50,687
    总访问量
  • 29
    原创
  • 1,502,308
    排名
  • 85
    粉丝
  • 0
    铁粉

个人简介:专注大数据领域,数据赋能

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:北京市
  • 加入CSDN时间: 2017-10-24
博客简介:

大块白云的博客

查看详细资料
个人成就
  • 获得14次点赞
  • 内容获得4次评论
  • 获得39次收藏
创作历程
  • 3篇
    2022年
  • 18篇
    2021年
  • 6篇
    2020年
  • 3篇
    2018年
  • 1篇
    2017年
成就勋章
TA的专栏
  • 算法
  • hive
    7篇
  • olap
    1篇
  • CDH平台
    3篇
  • Hadoop
    1篇
  • 数据质量
    1篇
  • 数据湖
    1篇
  • Linux
    4篇
  • java
    1篇
  • Zookeeper
    1篇
  • 工具
    6篇
兴趣领域 设置
  • 大数据
    hadoophivesparkkylin大数据etl
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

mysql binlog操作日志打满存储

由于 mysql 配置没有设置 操作日志的过期清除策略,导致存储打满。解决方法:1.mysql启动不了手动删除部分操作日志,重启mysql2.mysql 服务正常 1>直接修改操作日志过期删除策略:expire_logs_days = 3 #自动删除3天前的日志。默认值为0,表示从不删除。log-bin=mysql-bin #注释掉之后,会关闭binlog日志...
原创
发布博客 2022.01.27 ·
1559 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

hive sql

1 三个分组排序函数1 row_number() over([partition by col1] [order by col2]) 1 2 3 2 rank() over([partition col1][order by col2]) 1 ...
原创
发布博客 2022.01.10 ·
204 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

sparkstreaming读取kafka消息的两种方式

sparkstreaming 消费kafka数据的 kafkautil 提供两种创建dstream的方法:1 老版本的createStream方法2 新版本的createDirectStream方法通过createDirectStream方法创建出来的dstream的rdd partition 和 kafka 的topic的partition是一一对应的,通过低阶API直接从kafka的topic消费消息,并行计算效率高,默认将偏移...
原创
发布博客 2022.01.06 ·
1132 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

shell

1$# 输入参数的个数2 $? 最后命令的返回值
原创
发布博客 2021.12.15 ·
111 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

hive脚本开发

#!/bin/bashsourceName=$1writeName=$2dt=$3dtValue=$4hive -e "set spark.app.name=clean_distinct_transfer_dept;set spark.executor.instances=5;set spark.executor.memory=10g;set spark.executor.cores=2;set spark.driver.memory=8g;insert overwrite table.
原创
发布博客 2021.12.07 ·
537 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

schedule

1 理想情况下,应用对Yarn资源的请求应该立刻得到满足,但现实情况往往资源是有限的,特别是在一个很繁忙的集群,一个应用资源的请求经常需要等待一段时间才能得到相应的资源。2 在yarn中负责给应用分配资源的就是schedule3 yarn 架构 1 Resource Manager(RM) : 1 构成: ① Schedule ...
原创
发布博客 2021.12.01 ·
1264 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

sqoop 脚本配置

#!/bin/bashecho "`date`"' - Begin import table: dhc-app.or_anaesthesia_incr'import_log_file=$1inner_report_file=$2export HADOOP_CLIENT_OPTS="-Xmx1g $HADOOP_CLIENT_OPTS"hive -e "drop table if exists nfyy_dhcapp_20210422_1_incr.or_anaesthesia;"/bigda.
原创
发布博客 2021.11.30 ·
489 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

数据采集工具调研

sqoop 1 采用map-reduce计算框架进行导入导出,采用map-reduce框架同时在多个节点进行import或者export操作 2 用于 关系型数据库和hadoop组件之间进行数据迁移 , 不支持hadoop相关库组件、rdbms之间数据抽取操作 3 对hadoop支持度好 4 sqoop只支持官方提供的指定几种关系型数据库和hadoop组件之间的数据交换 5 数据库同步两种方式,1,JDBC的连接 √ 2,使用数据库提供的工具 ...
原创
发布博客 2021.11.30 ·
218 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

dbeaver

1dbeaver简介DBeaver是一个集成的数据库客户端工具。提供一个图形界面用来查看数据库结构、执行SQL查询和脚本,浏览和导出数据等等。2使用环境及连接配置 2.1使用环境Windows环境 2.2连接配置配置说明:1 文件->新建2 依次按照下面截...
原创
发布博客 2021.11.30 ·
3459 阅读 ·
0 点赞 ·
2 评论 ·
1 收藏

hdfs 跨集群数据迁移

distcp#!/bin/bashDB=$1#获取hive表定义ret=$(hive -e "use ${DB};show tables;"|grep -v _es|grep -v _hb|grep -v importinfo)for tem in $ret;do echo $tem if [ "$tem" != "tab_name" ];then hive -e "use ${DB};show create table $
原创
发布博客 2021.11.29 ·
852 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hbase

Hbase 是由三种类型的server组成的主从式(master-slave)架构:1 几个角色: 1 Region server 负责处理数据的读写请求,客户端请求数据时直接和Region server交互 2 Hbase Master 负责Region的分配,DDL(创建、删除table)等操作 3 Zookeeper,作为Hadoop的一部分,负责集群状态的维护2 关于数据存储: 1 Hadoop DataNode 负责存...
原创
发布博客 2021.11.22 ·
1270 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

大数据质量解决方案

GriffinApache Griffin 定位为大数据的数据质量监控工具,支持多种批处理数据源,其中支持hive就已经解决了在数仓领域遇到的数据质量控制的场景问题。1 解决 数据质量监控 的思路: 模型驱动,基于目标数据集合或者源数据集,用户可以选择不同的数据质量维度来执行目标数据质量的验证。2 支持两类数据源 1 批数据 2 准实时数据3 可以做到的监控 1 度量 精确度、完整性、及...
原创
发布博客 2021.11.19 ·
1865 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

数据湖三剑客 Hudi、Delta、Iceberg

数据湖三剑客 Hudi、Delta、Iceberg
原创
发布博客 2021.11.19 ·
526 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

MPP架构设计

MPP 即大规模并行处理(Massively Parallel Processor)。 1 在数据库非共享集群中,每个节点都有独立的磁盘存储系统和内存系统 2 业务数据根据数据库模型 和 应用特点划分到各个节点上 3 每台数据节点通过专用网络互相连接,彼此协同计算,作为整体提供数据库服务优点: 1 非共享数据库集群有完全的 可伸缩性、高可用、高性能、优秀的性价比、资源共享等优势。 2 通过并行查询处理来提...
原创
发布博客 2021.11.19 ·
830 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

增量合并全量

insert overwrite table nfyy_tn_20210228_1_union.mr_observations PARTITION(dt='2021-03-01')(select obs_updatehospital_dr,obs_consult_dr,obs_ispartogram from nfyy_dhcapp_20210228_1_full.mr_observations awhere 0=(select count(1) from nfyy_dhcapp_20210301_.
原创
发布博客 2021.11.18 ·
362 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

集群运维脚本

集群运维的几个脚本:1 xcall.sh#! /bin/bashfor i in nfcls8 nfcls7 nfcls6 nfcls5 nfcls4 nfcls3 nfcls2 do echo --------- $i ---------- ssh $i "source /etc/profile;$*" done2 xsync.sh#!/bin/bash#1 获取输入参数个数,如果没有
原创
发布博客 2021.11.18 ·
175 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

hive 工作总结2

1 hive 的文件存储格式TEXTFILE SEQUENCEFILE AVRO RCFILE ORC PARQUET 1 分类 面向行的: TEXTFILE、SEQUENCEFLIE、AVRO 面向列的 RCFILE、ORC、PARQUET 2 两种分类的区别 ...
原创
发布博客 2021.11.18 ·
696 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

hive 工作总结1

hive 优化数据倾斜、数据冗余、job的IO以及不同底层引擎配置情况和Hive本身参数和HiveSQL的执行1 hive本身参数的配置优化: 1 针对小文件过多的配置: 输入、输出端合并 输入:更改hive的输入文件格式,参数名称是 hive.input.format 默认值是org.apache.hadoop.hive.ql.io.HiveInputF...
原创
发布博客 2021.11.17 ·
218 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

hive架构及工作原理

1 hive架构1.1 组成及作用用户接口: clientcli(hive shell)、jdbc/ODBC(java访问hive)、webUI(浏览器访问hive) 元数据meta store 表所属的数据库 表名 列、分区字段 表的类型 表所在的数据目录 注:默认存储在自带的Derby数据库中,一般使用mysql出处Metastore 底层存储: HDFS 计算:MapReduce 驱动器Driver:接收/响应客户端请求 解..
原创
发布博客 2021.11.17 ·
241 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Presto

1 presto概述 presto 是 分布式 SQL 查询引擎2 核心概念协调者coordinator 解析语句 规划查询 管理work节点 使用REST API与work节点通信,从work节点获取结果并最终返回给客户端 工作者 work 执行任务 处理数据 从connector获取数据并相互交换中间数据 work工作进程启动时 ,它会将自己告诉 协调器 中的 发现服务服务器discover,...
原创
发布博客 2021.11.16 ·
120 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多