- 博客(37)
- 资源 (291)
- 收藏
- 关注
原创 HBase Rowkey 设计指南
为什么Rowkey这么重要RowKey 到底是什么我们常说看一张 HBase 表设计的好不好,就看它的 RowKey 设计的好不好。可见 RowKey 在 HBase 中的地位。那么 R...
2020-08-31 09:00:46 559
转载 产业互联网时代不想掉队?鹅厂的这个会你不能错过!
消费互联网战场日渐红海,产业互联网大潮滚滚而来。腾讯作为互联网的巨头,在云计算、人工智能、大数据等领域早已有深厚的技术和实践经验的积累。为了强化产业融合、助力产业数字化升级,腾讯全球数字...
2020-08-30 19:28:34 359
转载 Docker不香吗,为啥还要K8s?
本文先介绍一下 K8s 的基本概念,后面再介绍实践,由浅入深步步为营。关于 K8s 的基本概念我们将会围绕如下七点展开:Docker的管理痛点什么是 K8s?云架构 & 云原生...
2020-08-30 19:28:34 1493
转载 开源搜索引擎排名第一,Elasticearch是如何做到的?
一、引言随着移动互联网、物联网、云计算等信息技术蓬勃发展,数据量呈爆炸式增长。如今我们可以轻易得从海量数据里找到想要的信息,离不开搜索引擎技术的帮助。作为开源搜索引擎领域排名第一的 El...
2020-08-29 20:58:00 643
转载 当当网买书薅羊毛攻略(附大数据学习用书)
开学季当当网计算机图书大促>>每满100减50 <<满200减100满300减150满400减200不止如此!秉持绝不让大家多花一分钱的精神机械工业出版社华章...
2020-08-29 20:58:00 1823
转载 实时数仓在滴滴的实践和落地
桔妹导读:随着滴滴业务的高速发展,业务对于数据时效性的需求越来越高,而伴随着实时技术的不断发展和成熟,滴滴也对实时建设做了大量的尝试和实践。本文主要以顺风车这个业务为引子,从引擎侧、平台...
2020-08-28 09:14:37 371
转载 PB级大规模Elasticsearch集群运维与调优实践
导语 |腾讯云Elasticsearch 被广泛应用于日志实时分析、结构化数据分析、全文检索等场景中,本文将以情景植入的方式,向大家介绍与腾讯云客户合作过程中遇到的各种典型问题,以及相...
2020-08-27 20:01:00 1472 2
转载 Delta Lake 如何帮助云用户解决数据实时入库问题
嘉宾简介:辛现银,花名辛庸,阿里巴巴计算平台事业部 EMR 技术专家,Apache Hadoop,Apache Spark contributor,对 Hadoop、Spark、Hive...
2020-08-26 08:30:00 378
原创 Delta Lake 第一篇论文发布了
最近,数砖大佬们给 VLDB 投了一篇名为《Delta Lake: High-Performance ACID Table Storage overCloud Object Stores...
2020-08-25 20:20:00 872
转载 NLP高阶攻略,新手莫入!
行业上90%以上的NLP工程师是“不合格的”。我一直坚信AI人才的最大壁垒是创造力,能够持续为变化的业务带来更多的价值。但创造的前提一定是对一个领域的深度理解和广度认知,以及不断对一个事...
2020-08-25 20:20:00 479
转载 eBay Kubernetes集群的存储实践
供稿 |TESS 高文俊&谢文利&沈涛翻译&编辑 | 顾欣怡导读Kubernetes作为eBay内部广泛使用的容器管理平台,承担着巨大的存储功能。本文将从本地存...
2020-08-24 10:00:00 594
转载 面试时行云流水仍被拒,人工智能的hr究竟喜欢什么样的求职者?
如果说求职是人生的一道坎,那么面试就是最难翻越的那一块砖。当你经历过大大小小的面试之后,就会发现不同的公司、不同的面试官问的问题都大同小异,因为企业对于挑选人才是有一些共性的要求的,只要...
2020-08-23 19:59:00 219
原创 Apache Kafka 2.6.0 有哪些值得关心的变化
Apache Kafka 2.6.0 于2020年08月03日正式发布。在这个版本中,社区做了很多显著的性能改进,特别是当 Broker 有非常多的分区时。Broker 关闭性能得到了显...
2020-08-23 19:59:00 2398
转载 请把这3个京东真实AI项目写到简历上!
《京东NLP企业项目实战训练营》专注于培养行业TOP10%的NLP工程师对课程有意向的同学添加课程顾问小姐姐微信报名、课程咨询????????????《京东NLP企业项目实战训练营》专注...
2020-08-20 08:20:00 272
转载 收藏!一张图帮你快速建立大数据知识体系
【过往记忆大数据】已开通技术交流及招聘求职内推群,加微信号fangzhen0219为好友后入群。阿里妹导读:对海量数据进行存储、计算、分析、挖掘处理需要依赖一系列的大数据技术,而大数据...
2020-08-20 08:20:00 442
转载 超全面的大数据面试题,一道比一道难,快来挑战一下吧
【过往记忆大数据】已开通技术交流及招聘求职内推群,加微信号fangzhen0219为好友后入群。本文全文篇幅1万字左右,从数据结构到Java再到大数据都有整理,可以先收藏起来,查漏补缺...
2020-08-19 08:30:00 926
转载 今年,程序员找工作会更难吗?
打开各大招聘网站,明显感受到今年招聘信息少了很多,而且企业对面试者的技能要求更高,技术覆盖面也更全。今年想要轻轻松松跳槽,确实不太容易。但这个时候,我们更应该沉下心,好好梳理自己的技术体...
2020-08-18 20:30:00 389
转载 数据中台:浅析数据湖和数据中台的关系
【过往记忆大数据】已开通技术交流及招聘求职内推群,加微信号fangzhen0219为好友后入群。1那些让人眼花缭乱的概念不知道大家有没有发现,这几年的数据领域有好多的概念,例如:大...
2020-08-18 20:30:00 1862
转载 流系统Spark/Flink/Kafka/DataFlow端到端一致性实现对比
分布式最难的2个问题1. Exactly Once Message processing2. 保证消息处理顺序.我们今天着重来讨论一下为什么很难怎么解前言就作者学习流系统的感受来看, 流...
2020-08-17 08:58:24 487 1
转载 看了这篇文章我才知道,库存管理原来这么简单?!
销量作为衡量企业营收的主要指标之一,也是各大投资机构分析师研究报告的重要组成。分析师一般会为某类产品建立财务模型,运用回归分析法进行预测是常见的手段,也就是根据自变量和因变量的历史数据,...
2020-08-15 20:30:00 366
转载 HBase 四种数据迁移方案
本文原文:http://ballwql.cnblogs.com/一、前言HBase数据迁移是很常见的操作,目前业界主要的迁移方式主要分为以下几类:图1.HBase数据迁移方案从上面图中可...
2020-08-15 20:30:00 5054 1
转载 滴滴ElasticSearch千万级TPS写入性能翻倍技术剖析
桔妹导读:滴滴ElasticSearch平台承接了公司内部所有使用ElasticSearch的业务,包括核心搜索、RDS从库、日志检索、安全数据分析、指标数据分析等等。平台规模达到了30...
2020-08-14 08:40:00 531
转载 眨眼 Spark 都 3.0 了!
福利手慢无廖雪峰的大数据开发必备教程-Spark视频资料终于免费了!限额领取~今年不少人觉得职场晋升不那么顺畅,说是大环境所致,这也没错。但身边有些人,却能在如此“艰难”的环境下,顺利...
2020-08-13 08:33:57 182
转载 自适应查询执行AQE:在运行时加速SparkSQL
演讲嘉宾简介:王道远,阿里巴巴技术专家以下内容根据演讲视频以及PPT整理而成。点击链接观看精彩回放:https://developer.aliyun.com/live/43188自适应查...
2020-08-12 08:30:00 459
转载 Flink x Zeppelin ,Hive Streaming 实战解析
Flink 1.11 正式发布已经三周了,其中最吸引我的特性就是 Hive Streaming。正巧 Zeppelin-0.9-preview2 也在前不久发布了,所以就写了一篇 Zep...
2020-08-11 20:30:00 780
转载 逼自己玩命学了6个多月,吃透这31个大数据知识点!分享给你,让你今年进个大厂!...
2020年魔幻开局,上半年疫情肆虐,逼自己学完了这套Kafka 源码深度剖析课程视频,通过对Kafka高性能的消息封装流程源码剖析,服务端高性能架构设计源码剖析等,看完彻底掌握了Kafk...
2020-08-10 08:40:00 403
转载 Zeta:eBay 基于 Apache Spark 开发的新一代数据开发分析平台
供稿 |eBay DSSTeam作者| 田川晓阳编辑 | 顾欣怡本文4490字,预计阅读时间14分钟导读新一代数据开发分析平台Zeta由eBay DSS(Data Services...
2020-08-10 08:40:00 1130
原创 Presto on Spark:扩展 Presto 以支持大规模 ETL
前言Facebook 的数据仓库构建在 HDFS 集群之上。在很早之前,为了能够方便分析存储在 Hadoop 上的数据,Facebook 开发了 Hive 系统,使得科学家和分析师可以使...
2020-08-09 22:13:15 2290
转载 K8S成精了!
2020,上云之年,产品云端化成为一种趋势。在一线城市,很多公司都已经构建了自己的私有云环境,比如阿里云、网易云、华为云等。而Kubernetes 作为基于容器编排领域的王者,具备扩展...
2020-08-08 20:21:39 374
转载 这个公众号到底有没有好文章?我整理了300篇,觉得不好我跪榴莲!
花了6个小时,总算整理好了,嗯,榴莲,真香!大数据成神之路Spark/Kafka/Flink/ElasticSearch/Hadoop/Hbase/Hive/Yarn/Kylin/Red...
2020-08-07 08:25:00 1889
转载 Spark SQL 物化视图技术原理与实践
导言本文将基于 SparkSQL(2.4.4) + Hive (2.3.6), 介绍物化视图在SparkSQL中的实现及应用。什么是物化视图物化视图主要用于预先计算并保存表连接或聚合等耗...
2020-08-06 11:55:28 856
转载 从 0 到 1 搭建一套 Flink 的监控系统
本文带大家讲解一下如何搭建一套完整的 Flink 监控系统,如果你所在的公司没有专门的监控平台,那么可以根据本文的内容来为公司搭建一套属于自己公司的 Flink 监控系统。利用 API ...
2020-08-05 08:30:00 1390 2
转载 大厂的 Redis 都是怎么搞的?
如果你是一位后端工程师,面试时八成会被问到 Redis,特别是那些大型互联网公司,不仅要求面试者能简单使用 Redis,还要深入理解其底层实现原理,具备解决常见问题的能力。可以说,熟练使...
2020-08-04 20:45:00 333
转载 Apache Hudi应用调优指南
通过Spark作业将数据写入Hudi时,Spark应用的调优技巧也适用于此。如果要提高性能或可靠性,请牢记以下几点。输入并行性:Hudi对输入进行分区默认并发度为1500,以确保每个S...
2020-08-04 20:45:00 1142
转载 光大银行分布式实战:国内最大缴费平台的数据库架构转型
于树文光大银行资深DBA目前在中国光大银行信息科技部数据库管理团队主要负责分布式数据库建设项目,推进行内技术架构转型等相关工作。从事数据库运维管理工作十余年,在数据库的性能优化,升级迁移...
2020-08-03 09:18:25 950
转载 面试必知的 Spark SQL 几种 Join 实现
Join作为SQL中一个重要语法特性,几乎所有稍微复杂一点的数据分析场景都离不开Join,如今Spark SQL(Dataset/DataFrame)已经成为Spark应用程序开发的主流...
2020-08-02 20:20:47 512 1
转载 Kafka 是靠什么机制保持高可靠,高可用的?
这个 Acks 参数在 Kafka 的使用中,是非常核心以及关键的一个参数,决定了很多东西。所以无论是为了面试还是实际项目使用,大家都值得看一下这篇文章对 Kafka 的 Acks 参数...
2020-08-01 20:15:55 432
HBase in Practise: 性能、监控和问题排查
2018-08-13
HBase Procedure V2介绍
2018-08-13
Scala Cheat Sheet
2018-07-04
Apache Hive Functions Cheat Sheet
2018-07-04
Apache Spark Cheat Sheet
2018-07-04
spark-summit-north-america-2018-06 全部 PPT -part1
2018-06-19
spark-summit-north-america-2018-06 全部 PPT -part2
2018-06-17
A Deep Dive into Stateful Stream Processing in Structured Streaming
2018-06-17
Implementing AutoML Techniques at Salesforce Scale
2018-06-17
Using AI to Deliver a Device as a Service
2018-06-17
Foundations of streaming SQL
2018-06-15
Deep Dive into Spark SQL with Advanced Performance Tuning
2018-06-11
Qcon北京2018-《区块链服务在华为公有云平台上的重要问题设计实现及解决方法》-张子怡.pdf
2018-05-16
QCon北京2018-强业务驱动的互联网+,技术管理的坑与路--廖雪梅.pdf
2018-05-16
QCon北京2018-《用正确分享来磨练专家实力——分享型专家升级记》-黄闻欣.pdf
2018-05-16
QCon北京2018-《Oracle区块链架构及其应用开发》-蒋春明.pdf
2018-05-16
Apache iceberg:Netflix 数据仓库的基石
2020-02-23
Apache Hadoop 3.x state of the union and upgrade guidance
2020-02-04
Apache Doris (Incubating) 原理与实践.pdf
2019-12-10
Spark SQL 在字节跳动的优化实践-郭俊.pdf
2019-12-03
Spark+AI Summit Europe 2019 Part 3
2019-11-03
Spark+AI Summit Europe 2019_iteblog.zip.002
2019-11-01
Spark+AI Summit Europe 2019_iteblog.zip.001
2019-11-01
The Delta Architecture Delta Lake + Apache Spark Structured Streaming.pdf
2019-10-28
Apache Spark 3.0, Koalas, Delta Lake 最新进展
2019-10-28
SPARK + AI SUMMIT 2019 全部 PPT
2019-09-21
From Stream Processor to a Unified Data Processing System
2019-04-20
Apache Spark 2.4 and beyond
2019-04-14
Flink社区专刊S2-重新定义计算
2019-04-11
从MPP数仓迁移至Spark:案例与最佳实践分享
2019-03-31
2018 Apache HBase 技术实战专刊
2019-01-07
Apache Spark Shuffle I/O 在 Facebook 的优化 [PDF]
2018-12-10
Apache Spark Shuffle I/O 在 Facebook 的优化
2018-12-10
不仅仅是流计算:Apache Flink实践
2018-11-29
Spark AI Summit Europe 2018 全部PPT - part1
2018-10-13
Easy, Scalable, Fault-tolerant stream processing with Structured Streaming-TD
2018-09-21
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人