浪尖聊大数据-浪尖
码龄5年
  • 1,556,304
    被访问
  • 233
    原创
  • 28,266
    排名
  • 2,089
    粉丝
  • 117
    铁粉
关注
提问 私信

个人简介:弓重好:浪尖聊大数据,主要分享大数据架构基础到入门的文章。

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:广东省
  • 加入CSDN时间: 2017-08-07
博客简介:

大数据星球-浪尖

博客描述:
主要分享Spark使用及源码,spark 机器学习,图计算,同时会涉及到,如:hadoop,Hbase,Hive,Kafka。保证文章质量,给大家提供一个好的知识分享平台。
查看详细资料
个人成就
  • 获得951次点赞
  • 内容获得470次评论
  • 获得3,187次收藏
创作历程
  • 262篇
    2022年
  • 494篇
    2021年
  • 438篇
    2020年
  • 259篇
    2019年
  • 329篇
    2018年
  • 31篇
    2017年
成就勋章
TA的专栏
  • spark
    98篇
  • flink
    98篇
  • 数据仓库
    127篇
  • kafka
    63篇
  • hbase
    47篇
  • hive
    41篇
  • hadoop
    16篇
  • kylin
    25篇
  • java面试题
    84篇
  • linux
    32篇
  • flume
    3篇
兴趣领域 设置
  • 大数据
    hadoophivestormsparketl
  • 数据库管理
    数据仓库
  • 最近
  • 文章
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

工业数据安全治理参考框架

工业数据是指工业企业在开展研发设计、生产制造、经营管理、应用服务等业务时,围绕客户需求、订单、计划、研发、设计、工艺、制造、采购、供应、库存、销售、交付、售后、运维、报废或回收等工业生产经营环节和过程所产生、采集、传输、存储、使用、共享的数据。随着工业企业数字化进程不断深化,工业数据作为新的生产要素,贯穿于工业全流程,其地位和重要性不言而喻。然而,随着工业企业组织模式、生...
转载
发布博客 22 小时前 ·
0 阅读 ·
0 点赞 ·
0 评论

IntelliJ IDEA - 2022.2 正式发布!众多特性解读!

IntelliJ IDEA 2022.2 包括对远程开发功能的多项质量改进,使其更时尚、更稳定。从 v2022.2 开始,IntelliJ IDEA 使用 JetBrains Runtime 17,它在许多方面增强了 IDE 体验和性能。IntelliJ IDEA Ultimate 增加了对 Spring 6 和 Spring Boot 3 功能的支持,并为其他几个框架引...
转载
发布博客 22 小时前 ·
1 阅读 ·
0 点赞 ·
0 评论

数仓指标体系实践

正文滴滴技术|来源指标体系1. 痛点分析主要从业务、技术、产品三个视角来看:业务视角业务分析场景指标、维度不明确;频繁的需求变更和反复迭代,数据报表臃肿,数据参差不齐;用户分析具体业务问题找数据、核对确认数据成本较高。技术视角指标定义,指标命名混乱,指标不唯一,指标维护口径不一致;指标生产,重复建设;数据汇算成本较高;指标消费,数据出口不统一,重复输出,输出口径不一...
转载
发布博客 2022.08.10 ·
19 阅读 ·
0 点赞 ·
0 评论

Kafka各组件架构简介

Kafka各组件说明1.Broker每个kafka server称为一个Broker,多个borker组成 Kafka Cluster。一个机器上可以部署一个或者多个Broker,这多个Broker连接到相同的ZooKeeper就组成了Kafka集群。2.TopicKafka是一个发布订阅消息系统,它的逻辑结构如下:Topic 就是消息类别名,一个topic中通常放置一类...
转载
发布博客 2022.08.10 ·
14 阅读 ·
0 点赞 ·
0 评论

Java8 Lambda 表达式中的 forEach 如何提前终止?

# 情景展示如上图所示,我们想要终止for循环,使用return。执行结果如下:我们可以看到,只有赵六没被打印出来,后续的数组元素依旧被执行了。也就是说,关键字"return",在这里执行的效果相当于普通for循环里的关键词continue"。# 原因分析我们知道,在普通for循环里面,想要提前结束(终止)循环体使用"break";结束本轮循环,进行下一轮循环使用"con...
转载
发布博客 2022.08.08 ·
13 阅读 ·
0 点赞 ·
0 评论

阿里:淘系数据模型治理与最佳实践!

01模型背景&问题1. 整体情况首先介绍淘系的整体数据背景。淘系的数据中台成立至今已有7年左右,一直未作数据治理,整体数据生成构成比为:人工创建(22%)+机器生成78%。其中活跃数据占比:9%,不规范数据占比:21%。数据活跃以倒三角形状分布,整体分布比例为ads:dws:dwd:dim=8:2:1:1,分布还算合理。上图中下半部分是模型的生命周期,增长和留存情...
转载
发布博客 2022.08.05 ·
21 阅读 ·
0 点赞 ·
0 评论

数据仓库指标体系搭建实战!

作者:曹雷来源:滴滴技术01指标体系1. 痛点分析主要从业务、技术、产品三个视角来看:业务视角业务分析场景指标、维度不明确;频繁的需求变更和反复迭代,数据报表臃肿,数据参差不齐;用户分析具体业务问题找数据、核对确认数据成本较高。技术视角指标定义,指标命名混乱,指标不唯一,指标维护口径不一致;指标生产,重复建设;数据汇算成本较高;指标消费,数据出口不统一,重复输出,输出口...
转载
发布博客 2022.08.04 ·
40 阅读 ·
0 点赞 ·
0 评论

流批一体在京东的探索与实践

01整体思考提到流批一体,不得不提传统的大数据平台 —— Lambda 架构。它能够有效地支撑离线和实时的数据开发需求,但它流和批两条数据链路割裂所导致的高开发维护成本以及数据口径不一致是无法忽视的缺陷。通过一套数据链路来同时满足流和批的数据处理需求是最理想的情况,即流批一体。此外我们认为流批一体还存在一些中间阶段,比如只实现计算的统一或者只实现存储的统一也是有重大意义的...
转载
发布博客 2022.08.02 ·
22 阅读 ·
0 点赞 ·
0 评论

数据治理宝典!从0-1搭建企业级数据治理体系

数据治理是企业数据建设必不可少的一个环节。好的数据治理体系可以盘活整条数据链路,最大化保障企业数据的采集、存储、计算和使用过程的可控和可追溯。如何构建企业数据治理体系?企业数据治理过程需要注意哪些问题?总体而言,不能一口一个胖子,路要一步一步地走。下面我将结合企业级数据治理经验,详细介绍从0到1搭建数据治理体系全流程,帮你梳理数据治理的主要内容以及过程中会遇到的哪些坑。如...
转载
发布博客 2022.07.31 ·
50 阅读 ·
0 点赞 ·
0 评论

网易游戏 Flink SQL 平台化实践

01网易游戏 Flink SQL 发展历程网易游戏实时计算平台叫做 Streamfly,这个名字取名自电影《驯龙高手》中的 Stormfly。由于我们已经在从 Storm 迁移到 Flink,所以将 Stormfly 中的 Storm 替换成了更为通用的 Stream。Streamfly 前身是离线作业平台 Omega 下的名为 Lambda 的子系统,它负责了所有实时作...
转载
发布博客 2022.07.31 ·
31 阅读 ·
0 点赞 ·
0 评论

替代ELK:ClickHouse+Kafka+FlieBeat

文章来源:https://c1n.cn/yoNYE目录背景Elasticsearch vs ClickHouse成本分析环境部署总结背景saas 服务未来会面临数据安全、合规等问题。公司的业务需要沉淀一套私有化部署能力,帮助业务提升行业竞争力。为了完善平台系统能力、我们需要沉淀一套数据体系帮助运营分析活动效果、提升运营能力。然而在实际的开发过程中,如果直接部署一套大数据体...
转载
发布博客 2022.07.28 ·
80 阅读 ·
0 点赞 ·
0 评论

18000 字的 SQL 优化大全,收藏直接起飞!

来源:数据分析不是个事儿大家好,今天分享一篇关于SQL优化的硬核文章,全文有点长,建议收藏后慢慢看。很多朋友在做数据分析时,分析两分钟,跑数两小时?在使用SQL过程中不仅要关注数据结果,同样要注意SQL语句的执行效率。本文涉及三部分,篇幅较长,建议收藏后翻看:SQL介绍SQL优化方法SQL优化实例1、MySQL的基本架构1)MySQL的基础架构图左边的client可以看成...
转载
发布博客 2022.07.26 ·
24 阅读 ·
0 点赞 ·
0 评论

基于 Flink CDC 实现海量数据的实时同步和转换

摘要:本文整理自 Apache Flink Committer、Flink CDC Maintainer、阿里巴巴高级开发工程师徐榜江(雪尽)在 5 月 21 日 Flink CDC Meetup 的演讲。主要内容包括:Flink CDC 技术传统数据集成方案的痛点基于 Flink CDC 的海量数据的实时同步和转换Flink CDC 社区发展Tips:点击「阅读原文」获...
转载
发布博客 2022.07.26 ·
67 阅读 ·
0 点赞 ·
0 评论

2w字详解数据湖:概念、特征、架构与案例

最近,数据湖的概念非常热,许多前线的同学都在讨论数据湖应该怎么建?有没有成熟的数据湖解决方案?各大厂商的数据湖解决方案到底有没有实际落地的案例?怎么理解数据湖?数据湖和大数据平台有什么不同?带着这些问题,我们尝试写了这样一篇文章,希望能抛砖引玉,引起大家一些思考和共鸣。本文共有以下7个章节:什么是数据湖数据湖的基本特征数据湖基本架构各厂商的数据湖解决方案典型的数据湖应用场...
转载
发布博客 2022.07.24 ·
41 阅读 ·
0 点赞 ·
0 评论

Hive、SparkSQL是如何决定写文件的数量的?

Hive自身和Spark都提供了对Hive的SQL支持,用SQL的交互方式操作Hive底层的HDFS文件,两种方式在写文件的时候有一些区别:1. Hive 1.1 without shuffleHive在通过SQL写文件是通过MapReduce任务完成的,如下面这个例子:hive>insertintotabletemp.czc_hive_test_write...
转载
发布博客 2022.07.23 ·
80 阅读 ·
0 点赞 ·
0 评论

Shell 分析日志文件命令全面总结!

自己的小网站跑在阿里云的ECS上面,偶尔也去分析分析自己网站服务器日志,看看网站的访问量。看看有没有黑阔搞破坏!于是收集,整理一些服务器日志分析命令,大家可以试试!1、查看有多少个IP访问:awk'{print$1}'log_file|sort|uniq|wc -l2、查看某一个页面被访问的次数:grep"/index.php"log_file | wc -l3...
转载
发布博客 2022.07.23 ·
34 阅读 ·
0 点赞 ·
0 评论

Spark数据倾斜解决

一、数据倾斜表现数据倾斜就是数据分到各个区的数量不太均匀,可以自定义分区器,想怎么分就怎么分。Spark中的数据倾斜问题主要指shuffle过程中出现的数据倾斜问题,是由于不同的key对应的数据量不同导致的不同task所处理的数据量不同的问题。例如,reduced端一共要处理100万条数据,第一个和第二个task分别被分配到了1万条数据,计算5分钟内完成,第三个task分...
转载
发布博客 2022.07.21 ·
36 阅读 ·
0 点赞 ·
0 评论

使用uuid做MySQL主键,被老板,爆怼一顿!

来源:cnblogs.com/wyq178/p/12548864.html前言:在mysql中设计表的时候,mysql官方推荐不要使用uuid或者不连续不重复的雪花id(long形且唯一),而是推荐连续自增的主键id,官方的推荐是auto_increment,那么为什么不建议采用uuid,使用uuid究竟有什么坏处?本篇博客我们就来分析这个问题,探讨一下内部的原因。一:m...
转载
发布博客 2022.07.21 ·
22 阅读 ·
0 点赞 ·
0 评论

Flink+Clickhouse在广投集团实时数仓的最佳实践

一、业务背景由于历史原因,大型集团企业往往多个帐套系统共存,包括国内知名ERP厂商浪潮、用友、金蝶、速达所提供的财务系统,集团财务共享中心的财务人员在核对财务凭证数据时经常需要跨多个系统查询且每个系统使用方式不一,同时因为系统累计数据庞大,制单和查询操作经常出现卡顿,工作效率非常低。数据中台天然就是为了解决数据孤岛和数据口径不一致问题应运而生的,总的来说就是要将原本存在各...
转载
发布博客 2022.07.18 ·
119 阅读 ·
0 点赞 ·
0 评论

如何防止你的 jar 被反编译?

作者:dartagnan来源:cnblogs.com/dartagnan/archive/2011/03/24/2003434.htmlJava作为解释型的语言,其高度抽象的特性意味其很容易被反编译,容易被反编译,自然有防止反编译措施存在。今天就拜读了一篇相关的文章,受益匪浅,知彼知己嘛!!之所以会对java的反编译感兴趣,那是因为自己在学习的过程中,常常需要借鉴一下别人...
转载
发布博客 2022.07.18 ·
32 阅读 ·
0 点赞 ·
0 评论
加载更多