自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

大数据星球-浪尖

主要分享Spark使用及源码,spark 机器学习,图计算,同时会涉及到,如:hadoop,Hbase,Hive,Kafka。保证文章质量,给大家提供一个好的知识分享平台。

  • 博客(41)
  • 收藏
  • 关注

转载 字节跳动如何利用数据挖掘做精准匹配?

“数据驱动“这个词你一定不陌生,字节跳动借助数据挖掘为用户推荐内容,滴滴依靠数据挖掘来找到最合理的路线,美团凭借数据挖掘算法进行派单等等。每一个和你生活息息相关的 App 或者产品背后都...

2020-07-30 22:42:08 831

转载 基于 Flink 搭建实时个性化营销平台?

在大数据时代,金融科技公司通常借助消费数据来综合评估用户的信用和还款能力。这个过程中,某些中介机构会搜集大量的号并进行“养号”工作,即在一年周期里让这些号形成正常的消费、通讯记录,目的是...

2020-07-30 22:42:08 278

转载 基于 Kafka 与 Debezium 构建实时数据同步

起源在进行架构转型与分库分表之前,我们一直采用非常典型的单体应用架构:主服务是一个 Java WebApp,使用 Nginx 并选择 Session Sticky 分发策略做负载均衡和会...

2020-07-29 22:51:58 813

转载 在线数据迁移实践:如何为正在飞行的飞机更换引擎

在线数据迁移,是指将正在提供线上服务的数据,从一个地方迁移到另一个地方,整个迁移过程中要求不停机,服务不受影响。根据数据所处层次,可以分为 cache 迁移和存储迁移;根据数据迁移前后的...

2020-07-28 23:04:11 183

转载 Flink 1.11:更好用的流批一体 SQL 引擎

许多的数据科学家,分析师和 BI 用户依赖交互式 SQL 查询分析数据。Flink SQL 是 Flink 的核心模块之一。作为一个分布式的 SQL 查询引擎。Flink SQL 提供了...

2020-07-28 23:04:11 523

转载 “分库分表”与“NewSQL”如何选择?

“ 最近与同行交流,经常被问到分库分表与分布式数据库如何选择。图片来自 Pexels网上也有很多关于中间件+传统关系数据库(分库分表)与 NewSQL 分布式数据库的文章,但有些观点与判...

2020-07-27 22:43:29 338

转载 7.delta lake的merge操作详细讲解,案例及性能调优

上文讲解了deltalake 的update,delete及merge的基本操作。鉴于merge操作的复杂性,本文主要对其进行展开讲解。1.merge算子操作语法merge操作的sql表...

2020-07-27 22:43:29 1204

转载 MySql的Binlog日志工具分析:Canal、Maxwell、Databus、DTS

Canal定位:基于数据库增量日志解析,提供增量数据订阅&消费,目前主要支持了mysql。原理:canal模拟mysql slave的交互协议,伪装自己为mysql slave,...

2020-07-26 22:29:33 1383

转载 汇总一下Intellij IDEA炫酷的插件

1、日晒主题 Solarized Themes推荐指数:☆☆☆☆☆推荐理由:日晒主题本身是为vim定制的。后来移植到ide 非常酷!配色非常耐看。 最近更新不等号显示,注释不可编辑。背...

2020-07-26 22:29:33 336

转载 数据仓库中的慢变化维度和快变化维度

数据仓库中的事实表总是在变化中,通常是新的业务数据不断装载入DW。事实表数据的增加是正常现象,也无需特别处理。但很多时候维度表的数据也会发生变化,且维度表的数据变化会导致维度表和事实表的...

2020-07-25 22:10:00 724

转载 Kylin Flink Cube 引擎的前世今生

Apache Kylin™ 是一个开源的、分布式的分析型数据仓库,提供Hadoop/Spark 之上的 SQL 查询接口及多维分析(OLAP)能力以支持超大规模数据,它能在亚秒内查询巨大...

2020-07-24 22:51:59 304

转载 5.数据湖deltalake流表的读写

delta lake和 spark structured streaming可以深度整合。delta lake克服了很多常见的与流系统和文件整合带来的相关限制,如下:保证了多个流(或并发...

2020-07-24 22:51:59 809 2

转载 说个跳槽不成功的普遍原因

最近后台有很多粉丝反应——拥有三年工作经验的大数据开发,现在面试成功率非常低!脉脉上也在反应找不到工作????面试过程中,面试官首先会问一些底层原理问题,如HBase是如何存数据的、为什...

2020-07-23 11:42:10 204

转载 Yarn 使用 Cgroup 实现任务资源限制

Linux CGroup 全称是 Linux Control Group,是 Linux 内核提供的一个用来限制进程资源使用的功能,支持如 CPU, 内存,磁盘 IO 等资源的使用限制。...

2020-07-23 11:42:10 743

转载 一篇文章全面了解监控知识体系

前言介绍监控是整个运维乃至整个产品生命周期中最重要的一环,事前及时预警发现故障,事后提供详实的数据用于追查定位问题。目前业界有很多不错的开源产品可供选择。选择一款开源的监控系统,是一个省...

2020-07-22 23:11:53 432

转载 3.数据湖deltalake之时间旅行及版本管理

浪尖在deltalake第一讲的时候说过,它支持数据版本管理和时间旅行:提供了数据快照,使开发人员能够访问和还原早期版本的数据以进行审核、回滚或重新计算。1.场景delta lake的时...

2020-07-20 23:16:39 1181 1

转载 一篇文章说清楚如何提升大数据质量-InfoQ

正如大家所知,大数据建设的目标是为了融合组织数据,增加组织的洞察力和竞争力,实现业务创新和产业升级。而提高数据质量是为了巩固大数据建设成果,解决大数据建设成果不能满足业务要求的问题。并且...

2020-07-19 22:57:48 675

原创 源码分析zookeeper在kafka的作用

浪尖的kafka源码系列以kafka0.8.2.2源码为例给大家进行讲解的。纯属个人爱好,希望大家对不足之处批评指正。一,zookeeper在分布式集群的作用1,数据发布与订阅(配置中心...

2020-07-19 22:57:48 159

转载 基于 Flink 和 Drools 的实时日志处理

背景日志系统接入的日志种类多、格式复杂多样,主流的有以下几种日志:filebeat采集到的文本日志,格式多样winbeat采集到的操作系统日志设备上报到logstash的syslog日志...

2020-07-18 22:40:07 528

转载 专治数仓疑难杂症!美团点评 Flink 实时数仓应用经验分享

整理 | 青渊(Flink 社区志愿者)校对 | 青雉(Flink 社区志愿者)摘要:本文根据 Apache Flink 系列直播整理而成,由美团点评数据系统研发工程师黄伟伦老师分享。主...

2020-07-17 23:21:57 297

转载 元数据存储系统管理演变升级

前言我们知道在一个存储系统中,不光光只有它所存储的数据文件重要,它的存储系统的元数据管理同样十分的重要。因为涉及到存储系统数据访问操作时,会经过存储系统元数据的查询或更新操作,如果元数据...

2020-07-16 22:52:21 180

转载 神仙打架:PG和MySQL到底选啥?

“ 本文介绍 MySQL 和 PostgreSQL 的一些特性对比,让大家了解二者的优劣,更好的做出选择。图片来自 Pexels当前国内的现状,互联网公司使用 MySQL 的较多,Pos...

2020-07-15 11:48:02 994

转载 做大数据 6 年了,今天谈谈我的技术成长史

薪资高、机会多、缺口大,让大数据在开发圈里成了香饽饽。与此同时,在我做公众号的这两年,目睹了太多人「从入门到放弃」,甚至有些人连大数据的门都没进来。看看你是哪种?在中小企业做了一段时...

2020-07-15 11:48:02 314

转载 为什么大家都说SELECT * 效率低

来源:https://urlify.cn/ZvM3qe面试官:“小陈,说一下你常用的SQL优化方式吧。”陈小哈:“那很多啊,比如不要用SELECT *,查询效率低。巴拉巴拉...”面试官...

2020-07-14 22:25:41 153

转载 做olap一定要要了解的Druid存储结构

文章作者:吴建超作者博客:jackywoo.cn内容来源:作者授权出品平台:DataFunTalk导读:Apache Druid是一款优秀的OLAP引擎,众所周知数据存储格式对一款存储系...

2020-07-14 22:25:41 303

转载 基于Flink商品实时推荐系统项目

介绍:基于Flink实现的商品实时推荐系统。flink统计商品热度,放入redis缓存,分析日志信息,将画像标签和实时记录放入Hbase。在用户发起推荐请求后,根据用户画像重排序热度榜,...

2020-07-13 22:33:35 2457 1

原创 scala中常用但其他语言不常见的符号含义

本文旨在介绍Scala在其他语言中不太常见的符号含义,帮助理解Scala Code。下面介绍Scala中的符号:1. :::三个冒号运算符表示list的连接操作val one = Lis...

2020-07-12 22:00:00 310

转载 Hive实现数据抽样的三种方法

在大规模数据量的数据分析及建模任务中,往往针对全量数据进行挖掘分析时会十分耗时和占用集群资源,因此一般情况下只需要抽取一小部分数据进行分析及建模操作。Hive提供了数据取样(SAMPLI...

2020-07-12 22:00:00 777

转载 从B+树到LSM树,及LSM树在HBase中的应用

前言在有代表性的关系型数据库如MySQL、SQL Server、Oracle中,数据存储与索引的基本结构就是我们耳熟能详的B树和B+树。而在一些主流的NoSQL数据库如HBase、Cas...

2020-07-11 22:34:08 208 1

转载 从示例逐渐理解Scala尾递归

1.递归与尾递归1.1 递归1.1.1 递归定义递归大家都不陌生,一个函数直接或间接的调用它自己本身,就是递归。它通常把一个大型复杂的问题层层转化为一个与原问题相似的规模较小的问题来求解...

2020-07-10 22:35:23 322

转载 阿里巴巴大规模应用 Flink 的实战经验:常见问题诊断思路

整理:张宋庆(Flink 社区志愿者)校对:李庆(Flink 社区志愿者)摘要:本文由阿里巴巴高级运维工程师杨阳(时溪)分享,主要介绍阿里巴巴常见问题诊断模块与思路,内容涵盖以下几个方面...

2020-07-10 22:35:23 322

转载 工行“去O”数据库选型与分布式架构设计

本文根据魏亚东老师在〖deeplus直播第225期〗线上分享演讲内容整理而成。魏亚东工商银行软件开发中心经理中国工商银行软件开发中心三级经理,资深架构师。杭州研发部数据库专家牵头人和开发...

2020-07-09 23:13:31 1838

转载 不可不会的scala隐式转换

一,简介从类型S到类型T的隐式转换由具有函数类型S => T的隐式值定义,或者通过可转换为该类型的值的隐式方法来定义。隐含转换适用于两种情况:1),如果表达式e是类型S,并且S不符...

2020-07-08 23:07:28 214

转载 阿里云数仓总架构师:企业大数据平台仓库架构建设思路

作者介绍李金波,阿里云高级技术专家,大数据数仓解决方案总架构师,8年以上互联网数据仓库经历,对系统架构、数据架构拥有丰富的实战经验,曾任数据魔方、淘宝指数的数据架构设计专家。随着互联网规...

2020-07-08 23:07:28 504

转载 大数据平台是否更应该容器化?

作者颜卫,腾讯高级后台开发工程师,专注于Kubernetes大规模集群管理和资源调度,有过万级集群的管理运维经验。目前负责腾讯云TKE大规模Kubernetes集群的大数据应用托管服务。...

2020-07-06 21:01:26 911

转载 关系图谱在贝壳的构建和应用

分享嘉宾:周玉驰贝壳 资深算法工程师文章整理:许继瑞内容来源:贝壳找房知识图谱技术大会出品平台:DataFun注:欢迎转载,转载请在留言区留言。导读:贝壳找房积累了大量房、客、人的行为...

2020-07-05 22:34:38 2301 1

转载 Java中的十大经典排序算法最强总结!!!

来自:https://www.cnblogs.com/guoyaohua/p/8600214.html最近几天在研究排序算法,看了很多博客,发现网上有的文章中对排序算法解释的并不是很透彻...

2020-07-04 23:43:50 315

原创 spark源码阅读基本思路

1.为何要阅读源码浪尖以自己的经验讲一下为何需要阅读源码吧!a.解决企业中bug。比如flink早期bug,就很多,如json序列化工具,在开启flink仅一次处理,json格式不符合要...

2020-07-03 23:26:38 1575

转载 因为一条SQL,我差点被祭天......

“ 上周四午休时分,我正在工位上小憩,睡梦中仿佛看到了自己拿着李白在荣耀峡谷里大杀四方的情景,就在我刚拿完五杀准备带领队友推对面水晶的时候,一句慌乱急促的“糟了”把我从睡梦中惊醒.......

2020-07-02 23:29:59 210 1

原创 社区版本idea查看继承关系的骚操作

大家都会被idea 的专业版注册码随时被禁,而且费用过高而困扰。浪尖一直都是用的社区版本,很多粉丝留言说社区版本没办法利用uml查看类的继承关系,今天浪尖就给大家分享一个适用于社区版本i...

2020-07-02 23:29:59 4868 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除