scx_white
码龄8年
  • 2,670,313
    被访问
  • 641
    原创
  • 440
    排名
  • 18,854
    粉丝
关注
提问 私信
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:浙江省
  • 加入CSDN时间: 2015-01-03
博客简介:

苏苏爱自由

查看详细资料
  • 6
    领奖
    总分 2,817 当月 16
个人成就
  • 大数据领域优质创作者
  • 博客专家认证
  • 获得1,633次点赞
  • 内容获得738次评论
  • 获得2,954次收藏
  • GitHub 获得303Stars
创作历程
  • 2篇
    2022年
  • 2篇
    2021年
  • 11篇
    2020年
  • 16篇
    2019年
  • 18篇
    2018年
  • 112篇
    2017年
  • 247篇
    2016年
  • 250篇
    2015年
成就勋章
TA的专栏
  • java
    148篇
  • 数据湖
    1篇
  • hera离线调度开发
    10篇
  • Delta Lake
    1篇
  • Acm竞赛
    234篇
  • 菜鸟android学习之路
    49篇
  • Spring框架
    16篇
  • ************ACM************
  • 【图论】
    48篇
  • 【Dijkstra】
    6篇
  • 【拓扑排序】
    5篇
  • 【欧拉回路】
    2篇
  • 【spfa】
    2篇
  • 【强连通图】
    3篇
  • 【最小生成树】
    4篇
  • 【并查集】
    10篇
  • 【0-1分数规划】
  • 【搜索】
    59篇
  • 【记忆化搜索】
    3篇
  • 【贪心】
    25篇
  • 【动态规划】
    37篇
  • 【线段树】
    15篇
  • 【线段树】【RMQ】
    2篇
  • 【哈希表】
    1篇
  • 【数据结构】
    34篇
  • 【Trie】
    4篇
  • 【KMP】
    4篇
  • 【二分匹配】
    3篇
  • 【字符串】
    10篇
  • 【水题】
    49篇
  • 【河南省第八届acm程序设计大赛】
    6篇
  • ************课程************
  • 【matlab】
  • 【计算机图形学】
    3篇
  • 【c++】
    1篇
  • 【发发牢骚】
    11篇
  • ************JAVAEE************
    4篇
  • 【java】
    111篇
  • 【socket】
    4篇
  • 【框架】
    36篇
  • 【JAVA小游戏】
    27篇
  • 【坦克大战】
    16篇
  • ***********Android************
  • 【android】
    53篇
  • ************心情************
  • 【无聊】
    14篇
  • 【服务器】
    3篇
  • 【拓展欧几里德】
    1篇
  • 【bitset】
    1篇
  • 【尺取法】
    1篇
  • floyed
    1篇
  • 数论
    1篇
  • 单调栈
    2篇
  • 【数据库】
    3篇
  • 【linux】
    1篇
  • mysql
    1篇
  • 分布式
    3篇
  • 异常修复
    6篇
  • 设计模式
    3篇
  • 大数据
    11篇
TA的推广
兴趣领域 设置
  • 大数据
    mysql
  • 后端
    spring
一步一个脚印

关注公众号随时获取最新文章


star

关注公众号随时获取最新文章

赫拉分布式任务调度系统(已开源)
  • 最近
  • 文章
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

数据准备之日志采集发展历程

大家都听说过大数据计算,可能大家没想过大数据计算的数据来源自哪里呢?是怎么被抽取到数据仓库的呢?实际上数仓/数据湖的数据主要来源于日志、业务数据、第三方接口、 和 等其它存储。大数据这边有专门的数据集成工具(类似:,,,),就像一只八爪鱼把各种数据采集到大数据的数据仓库来。由于我们公司的日志数据在国外分散于多个可用区,采集日志也就不能使用一些开源的方案。在这里由我给大家简单介绍下我们公司大数据的数据准备之日志采集的发展历程。应该是在 年之前,日志采集方式还是应用使用指定的 配置文件,该配置除了指定日志
原创
发布博客 2022.07.04 ·
103 阅读 ·
0 点赞 ·
0 评论

Apache Hudi 数据湖概述

前言介绍本文之前,先给大家说一些简单的大数据概念。在大数据体系中,我们常用的存储是 HDFS(Hadoop Distributed File System),常用的计算是 map-reduce、spark、flink。对于 HDFS(Hadoop Distributed File System),是一个分布式的文件系统,数据平台的所有数据都存储在里面,最佳的使用实践是:一次写入,多次读取。所以大数据的计算基本上都是批处理计算(对有界的、确定数据范围的数据进行计算,不具备实时性),也就是 T-1 的计算,T
原创
发布博客 2022.04.02 ·
1368 阅读 ·
1 点赞 ·
0 评论

spark剖析:spark读取parquet文件会有多少个task

前言做大数据开发的肯定都知道小文件的弊端读取阶段:spark在读取文件时会根据文件的数量以及文件的大小来切分文件生成task。一般 task 数是大于等于文件数的,如果都是小于128M的文件就是等于文件数。小文件越多,task数越多,单个task处理的数据量就少,如果并行度不够会导致查询数据过慢。写入阶段:如果你的数据是存储到类似于cosn、oss、s3等对象存储中,spark 最后移动文件的rename阶段如果出现大量的小文件,性能低的会让你疯掉(毕竟 rename 在这些对象存储底层分两步 co
原创
发布博客 2021.06.19 ·
1611 阅读 ·
10 点赞 ·
4 评论

定时任务的实现原理:时间轮算法

前言最近在思考实现定时任务的几种方式,比如 quartz,delay queue,scheduleThreadPool,时间轮。在对比的同时,也了解了下其简单原理,在这里描述下我对时间轮算法实现定时任务的理解。时间轮定时使用方式 @Test public void test3() throws InterruptedException { DateTimeFormatter formatter = DateTimeFormatter.ofPattern("yyyy-MM-d
原创
发布博客 2021.04.15 ·
3755 阅读 ·
12 点赞 ·
2 评论

深入剖析 Delta Lake: MySQL CDC 实战

前言在初建大数据平台时,我想大家都遇到过这样一个需求,mysql 的数据如何同步到 hdfs 中供数仓分析使用在早期,业务可能对实时性的要求还不高,大家的计算也都是 T+1 的离线计算,当然也可能有 H+1 的准实时计算。大家的选型可能是 sqoop、datax 等工具。此时只需要在离线调度平台上配置每天/每小时拉取 mysql 数据同步到 hive 的任务即可。但该方式也有一些弊端,如:实时性较差全量抽取、尤其是每小时一次的抽取对 mysql 的压力很大...
原创
发布博客 2020.11.06 ·
1096 阅读 ·
4 点赞 ·
5 评论

hera源码剖析:一次任务触发的执行流程

文章目录触发任务work端master端run方法在 hera 中,任务被触发的方式有多种,比如分析师在前端手动执行触发、定时任务触发、依赖任务触发、重跑任务触发、信号丢失的触发等等。但是不管是哪种触发方式最后的入口都是在 Master#run 方法(开发中心任务触发接口在 Master#debug )。这里就讲一下手动执行的任务触发流程触发任务在最新版本中,任务手动触发类型分为手动执行、手动恢复、超级恢复三种,具体区别就不再赘述,可以通过 hera 操作文档查看,这里以手动恢复为例当我们点
原创
发布博客 2020.09.30 ·
475 阅读 ·
1 点赞 ·
0 评论

hera源码剖析:项目启动之分布式锁

文章目录前言获取当前机器ip分布式锁知识点总结master服务work服务work连接master前言本文章主要是为了让使用者能够更加了解 hera 的原理,并且能够在之基础上进行改进所进行。hera 是一款分布式任务调度与开发平台,具体不再描述,开源地址:https://github.com/scxwhite/hera获取当前机器ip在 hera 中,有一些静态代码块,这里只说一个很重要的部分,WorkContext 类中有这样一部分代码 static { host
原创
发布博客 2020.09.29 ·
382 阅读 ·
0 点赞 ·
0 评论

深入剖析 Delta Lake: schema validation

介绍Delta Lake 是 Spark 的开源存储层,可提供 ACID 事务和其他数据管理功能,用于机器学习和其他大数据工作,其通过写和快照隔离之间的乐观并发控制,在写入数据期间提供一致性的读取,从而为构建在 HDFS 和云存储上的数据湖(data lakes)带来可靠性。Delta Lake 内置数据版本控制,方便读取历史数据以及版本回滚。Spark 的每一个 DataFrame 都包含一个 schema,用来定义数据的形态,例如数据类型、列信息以及元数据。在 Delta Lake 中,表的 s
原创
发布博客 2020.09.11 ·
391 阅读 ·
2 点赞 ·
0 评论

atlas 初体验

atlas是由apache开源的数据血缘解析平台 布拉布拉2020-08-27T06:11:21,978 ERROR [3cf21166-5613-4313-a607-d6b77d305de3 main] hook.HiveHook: HiveHook.run(): failed to proceoperation QUERYjava.lang.NoSuchMethodError: org.apache.hadoop.hive.metastore.api.Database.getCatalogName
原创
发布博客 2020.09.07 ·
3438 阅读 ·
6 点赞 ·
6 评论

spark sql 数据倾斜案例实操

最近数仓同学有个离线任务跑不动了,问题是总是出现MetadataFetchFailedException 的异常,最后导致任务被 kill。于是就帮忙解决一下。问题排查查看了下该任务的历史执行记录(如下图),其实最近几天一直在失败,只是在重试后偶尔会成功一下查看具体的报错日志,是shuffle 数据丢失导致的任务失败,已经询问过该同事,已经对该 spark sql 任务进行了多次调参,executor-memory 很大了任务也是同样的错误。AY.hera.spark.conf=--master
原创
发布博客 2020.08.18 ·
2486 阅读 ·
9 点赞 ·
3 评论

记一次 spark rdd 写数据到 hbase 报 NPE 的问题排查

文章目录前言问题排查前言最近我们的 EMR 集群要从 spark2.3.2 升级到 spark2.4.3 来解决 spark 小文件多的问题。但是在升级后发现之前 spark rdd 写 hbase 正常的任务报错了,花费一番功夫才解决,所以写篇文章记录下。首先看下报错内容CONSOLE# 20/06/09 14:26:48 ERROR Start: 同步数据异常CONSOLE# java.lang.NullPointerExceptionCONSOLE# at org.apache.
原创
发布博客 2020.06.10 ·
593 阅读 ·
0 点赞 ·
0 评论

记一次大数据跨区域流量排查及修复

最近公司在降成本,发现了欧州、美国区两个区每天存在 300$ 的跨区流量费用,经过运维同学定位后发现绝大部分流量在 emr 机器上。于是排查就开始了。前言首先附上我们的任务调度架构我们大数据计算使用的是 AWS 的 EMR(Elastic MapReduce) 集群,由于 AWS EMR 天然支持读写 S3,并且 S3 相比较硬盘尤其便宜,所以我们的离线数据都是存储在 S3。即:计算...
原创
发布博客 2020.04.22 ·
661 阅读 ·
0 点赞 ·
0 评论

关于dubbo 占位符无法解析问题

不知道大家有没有遇到过,你要开发一个新应用要使用 dubbo 、 apollo 等组件,在集成的过程中发现 dubbo 配置文件的占位符无法替换,wtf,配置明明和以前的项目一样,为啥就不行了。我前两天也遇到了这个问题,就一起来分析下。文章目录简单配置介绍问题复现排查apollo排查PropertySourcesPlaceholderConfigurer排查dubbo思考验证想法两个项目为什...
原创
发布博客 2020.03.28 ·
3494 阅读 ·
15 点赞 ·
10 评论

presto sql输入表、输入字段、limit、join操作解析

前言一段时间没有写文章了,写下最近做的事情。目前我们这边有一个metabase 查询平台供运营、分析师、产品等人员使用,我们的查询都是使用 presto 引擎。并且我们的大数据组件都使用的是 emr 组件,并且涉及到中国、美西、美东、印度、欧洲、西欧等多个区域,表的权限管理就特别困难。所以就需要一个统一的权限管理来维护某些人拥有那些表的权限,避免隐私的数据泄漏。于是我们就需要一款sql解析工具...
原创
发布博客 2020.03.18 ·
4248 阅读 ·
4 点赞 ·
0 评论

Flink实战之StreamingFileSink如何写数据到其它HA的Hadoop集群

前言我们公司使用的集群都是 EMR 集群,于是就分别创建了一个 flink 集群专门用户实时计算,一个 hadoop 集群专门用于 spark、hive 的离线计算。两个集群是完全隔离的。但是有一些实时数据的采集需求,需要把数据写入到我们做离线计算的集群,有人说我只需要在 StreamingFileSink 需要传入的hdfs 路径前加上离线集群的 ip 就好了,比如:hdfs://otherI...
原创
发布博客 2019.12.03 ·
4076 阅读 ·
7 点赞 ·
28 评论

记一次JAVA使用ProcessBuilder执行Shell任务卡死问题分析

背景最近由于某些原因需要把一些原本 location 在 oss (阿里云云对象存储)上的 hive 数据迁移到cosn(腾讯云对象存储)。目前一直在增量进行同步,在迁移之前需要进行数据的对比。至于对比的方法计划有两种,一种是对比 oss 和 cosn 对应文件下的文件所占磁盘空间大小,即使用 hadoop fs -du -s -h 路径 命令,然后对比相应表 location 的数据大小是否一...
原创
发布博客 2019.11.20 ·
3989 阅读 ·
2 点赞 ·
0 评论

赫拉(hera)分布式任务调度系统之操作文档

前言最近发现我总是站在我的角度来使用hera,每个功能都很清楚,但是对于使用者,他们是不清楚的,所以提供一篇hera操作文档。有问题可以在下面回复操作文档登录、注册在hera上登录和注册其实分为两个部分,即用户和用户组(如果使用的是hera2.4版本以下的没这个功能)用户用户的登录url地址为 /login,页面效果如图请注意看提示,用户名为你注册的邮箱的前缀。邮箱:任务...
原创
发布博客 2019.10.31 ·
8223 阅读 ·
10 点赞 ·
5 评论

hive访问不在同一集群的hbase表数据

最近有个需求,有一些数据会实时写入到 hbase,但是又需要在 hive 中计算这些数据,最后把结果同步到 mysql。如果对于 hbase 与hive 在同一个集群,是很简单的操作,直接在 hive 中创建一个 hbase 的外部映射表就好了。但是我这边有些不一致,我们这边 hbase 和 hive 在两个不同的集群,需要了一些额外的操作开启白名单限制由于 hbase 集群与 hive ...
原创
发布博客 2019.09.25 ·
1532 阅读 ·
1 点赞 ·
0 评论

syntax error near unexpected token `(‘ 异常解决

问题的发现今天执行一个shell脚本时发现报错了,报错内容如下:syntax error near unexpected token `('脚本内容排查了很多遍都没有找到原因,执行的方式为 sh xx.sh然后使用 source xx.sh 执行和 bash xx.sh执行都是 ok 的。知识的了解此时就需要了解 sh source bash 执行文件的区别。首先看两张图...
原创
发布博客 2019.06.11 ·
123529 阅读 ·
23 点赞 ·
2 评论
加载更多