你过来，我给你看个宝贝

最新推荐文章于 2024-04-19 22:37:19 发布

王知无(import_bigdata)

最新推荐文章于 2024-04-19 22:37:19 发布

阅读量692

点赞数

文章标签：数据仓库分布式大数据编程语言 xhtml

原创文章禁止转载。否则追究法律后果。

本文链接：https://blog.csdn.net/u013411339/article/details/108505289

版权

大数据成神之路专栏收录该内容

254 篇文章 155 订阅

订阅专栏

以下是2020年上半年《大数据技术与架构》发表文章合集，请收藏。

实时计算篇

Structured Streaming | Apache Spark中处理实时数据的声明式API
HyperLogLog函数在Spark中的高级应用
基于SparkStreaming+Kafka+HBase实时点击流案例
基于Flink SQL构建实时数据仓库
Flink异步之矛-锋利的Async I/O
Spark SQL快速入门系列之Hive
基于SparkStreaming+Kafka+HBase实时点击流案例
三万字长文 | Spark性能优化实战手册
Flink整合Oozie Shell Action提交任务带Kerberos认证
Spark源码阅读的正确打开方式
消息队列常见面试问题小集合
Flink1.10和Hive集成一些需要注意的点
Flink事件时间、水印和迟到数据处理
Flink使用Broadcast State实现流处理配置实时更新
实战 | MySQL Binlog通过Canal同步HDFS
Flink最难知识点再解析 | 时间/窗口/水印/迟到数据处理
Hive on Spark参数调优姿势小结
Flink Logback日志与邮件报警配置
Kafka设计-恰好一次和事务消息
基于Canal和Kafka实现MySQL的Binlog近实时同步
一个基于RabbitMQ的可复用的事务消息方案
Spark性能优化总结
Flink常见异常和错误信息小结
Spark SQL快速入门系列之Hive
实时计算双星-Flink VS Spark 部署模式对比
PID算法和Spark实现反压的原理
关于SparkSQL的开窗函数，你应该知道这些!
Spark SQL是如何选择join策略的？
Spark on Hive & Hive on Spark，傻傻分不清楚
来看看一个大二学生的Spark练习题
Flink 自定义触发器实现带超时时间的 CountWindow
Spark Kafka 基于Direct自己管理offset
Apache Kylin | 麒麟出没，必有祥瑞
Flink 参数配置和常见参数调优
利用InfluxDB+Grafana搭建Flink on YARN作业监控大屏
网站日志实时分析之Flink处理实时热门和PVUV统计
大数据量下的集合过滤—Bloom Filter
实时数仓链路分享：kafka =>SparkStreaming=>kudu集成kerberos
Flink CEP 原理和案例详解
ProcessFunction：Flink最底层API使用踩坑记录
Flink 1.10之改进的TaskManager内存模型与配置
打通实时流处理log4j-flume-kafka-structured-streaming
如何设计实时数据平台（设计篇）
如何设计实时数据平台（技术篇）
SparkSQL内核解析-执行全过程概述
SparkSQL内核解析之逻辑计划
Flink-1.10中的StreamingFileSink相关特性
Kafka下的生产消费者模式与订阅发布模式
Kafka+Spark Streaming如何保证exactly once语义
Flink之实时统计热门商品的TopN
SparkSQL的自适应执行-Adaptive Execution
Kafka KSQL实战
ELK+FileBeat+Kafka分布式系统搭建图文教程
HDFS应用场景、原理、基本架构及使用方法
数据模型⽆法复⽤，归根结底还是设计问题
Hadoop支持Lzo压缩配置及案例
快看 | Java连接集成Kerberos的HA HDFS方案
Kafka消费者分区分配策略及自定义分配策略
Spark Streaming整合log4j、Flume与Kafka的案例
面试必知的 Spark SQL 几种 Join 实现
Flink在大规模状态数据集下的checkpoint调优
Write-Ahead Log(WAL预写日志)的工作原理
Kafka常见的导致重复消费原因和解决方案
Spark-submit 参数调优完整攻略
Kafka数据可靠性保证三板斧-ACK/ISR/HW
Spark常见错误问题汇总
HBase操作组件：Hive、Phoenix、Lealone
Redis系列 | 缓存穿透、击穿、雪崩、预热、更新、降级
Kafka工作流程及文件存储机制
Redis6.0主从、哨兵、集群搭建和原理
Spark Streaming官方编程指南
【从0开始の全记录】Flume+Kafka+Spark+Spring Boot 统计网页访问量项目
Spark+Kudu的广告业务项目实战笔记(一)
大数据入门：Spark+Kudu的广告业务项目实战笔记(二)
大数据入门：Spark+Kudu的广告业务项目实战笔记(三)
大数据入门：Spark+Kudu的广告业务项目实战笔记(四)
大数据入门：Spark+Kudu的广告业务项目实战笔记(五)
大数据入门：Spark+Kudu的广告业务项目实战笔记(六)
Flink 1.11新特性之SQL Hive Streaming简单示例
SparkSQL 整体运行架构和底层实现

离线计算篇

ORC文件存储格式的深入探究
Hadoop支持Lzo压缩配置及案例
神策数据分享 | 标签体系应用与建设(文末附下载链接)
环形缓冲区-Hadoop Shuffle过程中的利器
eBay | 实践Hadoop任务的性能翻倍之路
PDFT/Paxos/Raft-分布式一致性协议解析
谈谈经典限流方法—漏桶、令牌桶与Guava RateLimiter的实现
轻量级异步屏障快照（ABS）算法解析
Hadoop小文件利器Ozone
数据指标体系建设
Hbase FAQ热门问答小集合
设计HBase RowKey需要注意的二三事
HBase优化笔记
HBase生产环境优化不完全指南
Hive SQL50道练习题
Hive on Spark参数调优小结
Hadoop(CDH)分布式环境搭建(简单易懂,绝对有效)
ConcurrentHashMap锁机制进化的考量
HBASE列族不能太多的真相
基于ClickHouse的用户行为分析实践
HBase的系统架构全视角解读
Kylin Cube构建原理+调优
Hadoop支持Lzo压缩配置及案例
Apache Hudi 架构设计和基本概念
HiveSQL常用优化方法全面总结
MapReduce性能优化大纲
从NoSQL运动谈分布式系统的CAP、BASE理论
HDFS读写数据过程原理分析
数据中台建设五步法
Step by Step 实现基于 Cloudera 5.8.2 的企业级安全大数据平台 - Kerberos的整合
一篇文章全面了解监控知识体系
Sqoop 使用shell命令的各种参数的配置及使用方法
Hive小知识之分桶抽样
数据仓库和数据集市建模体系化总结
Phoenix(云HBase SQL)核心功能原理及应用场景介绍
基于实际业务场景下的Flume部署
斗转星移 | 三万字总结Kafka各个版本差异
Spark SQL自定义函数UDF、UDAF聚合函数以及开窗函数的使用
SparkSQL用UDAF实现Bitmap函数
一文了解Kafka核心概念和角色
Apache Spark 内存管理详解
经典限流方法——漏桶、令牌桶与Guava RateLimiter的实现
ZooKeeper在HBase集群中的作用
从B+树到LSM树，及LSM树在HBase中的应用
Hadoop Namenode元数据持久化机制与SecondaryNamenode的作用详解
干掉ELK | 使用Prometheus+Grafana搭建监控平台
盘点：SQL on Hadoop中用到的主要技术
用HiveSQL计算连续天数问题的方法
浅谈Linux cgroup机制与YARN的CPU资源隔离
京东JDHBase异地多活实践
Kafka的分区数是不是越多越好？
一文俯瞰Elasticsearch核心原理
不可不说的Java"锁"事

数据仓库篇

《一文了解数据库和数据仓库》
数据仓库系统的实现与使用(含OLAP重点讲解)
Data Lake 三剑客—Delta、Hudi、Iceberg 对比分析
数据也有温度？Elasticsearch 5.x 版本中的冷热数据架构
数据冷热分离技术
冷热数据分离 | Alluxio元数据管理策略
数据之眼 | 数据探查服务的设计
元数据存储系统管理演变升级
数据湖 | 一文读懂Data Lake的概念、特征、架构与案例
用户行为数据采集系统
创业公司数据仓库的建设
Kylin使用Spark构建Cube
实时统计分析系统-Apache Druid
Elasticsearch索引和检索优化与压测监控总结

企业面试篇

我们常说的海量小文件的根源是什么？
如果你在准备面试，好好看看这130道题
你可能需要知道的Kafka面试题与部分答案整理
28道关于ZooKeeper的面试题
【数据白皮书重磅分享】推荐|埋点|用研|标签
一份优秀的简历该长成什么样
1万2千字长文助力春招 | Netty面试篇
消息队列面面观
关于技术面试的一点点体会
早点建立自己的知识体系
Filter(过滤)|Project(映射)|Pushdowns(谓词下推)
阅读源码｜Spark 与 Flink 的 RPC 实现
三万六千字通关MySQL面试
深入理解CAP理论和适用场景
HDFS的SecondaryNameNode作用，你别答错了
Kafka三种可视化监控管理工具Monitor/Manager/Eagle
Kafka体系架构详细分解
Kafka笔记—可靠性、幂等性和事务
Kafka体系架构详细分解
Kafka面试题系列(进阶篇)
Kafka面试题系列(基础篇)
面试知识点 | Kafka的数据存储与索引设计
面试必考点:HBase Compaction机制
ZooKeeper需要关注的点
MySQL中InnoDB及索引深入剖析
Kafka面试题系列(进阶篇2)
MySql的Binlog日志工具分析：Canal、Maxwell、Databus、DTS
Redis中的管道Pipeline操作
查看YARN任务日志的几种方式
Yarn 使用 Cgroup 实现任务资源限制
分析和定位线上作业 OOM 问题利器-MAT
浅谈ZooKeeper中Kafka相关信息的存储
JVM架构体系与GC命令小总结

O L A P 篇

腾讯如何用Elasticsearch挖掘万亿数据价值？
Apache Beam 大数据处理一站式分析
Apache Hudi 架构设计和基本概念
Apache Hudi 架构设计和基本概念

其他

MySQL8.0发布，你熟悉又陌生的Hash Join？
转载一个看不懂的文章：F1 Query
Apache Hudi | 统一批和近实时分析的增量处理框架
寻找5亿次访问中，访问次数最多的人
聊聊阿里巴巴的全链路压测
年轻人你渴望力量吗 | 我读过的一些书推荐
数据算法之反转排序 | 寻找相邻单词的数量
MySQL Binlog同步HDFS的方案
循环查询数据的性能问题及优化
推荐系统 embedding 技术实践总结
Prometheus+Clickhouse实现业务告警
亿级用户的分布式数据存储解决方案
基于大数据的用户画像构建小百科全书
魅族持续交付平台建设实践

关注博主即可阅读全文

优惠劵

王知无(import_bigdata)

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
你过来，我给你看个宝贝

点击上方蓝色字体，选择“设为星标”回复”资源“获取更多资源大数据技术与架构点击右侧关注，大数据开发领域最强公众号！暴走大数据点击右侧关注，暴走大数据！以下是2020年上半年《大数据技术与...
复制链接

扫一扫

专栏目录

阿尔法淘宝宝贝下载1.77+注册机淘宝店铺复制软件

10-09

之前自己一个一个做数据包实在费神，如果淘宝上有店铺上了同款宝贝，直接借用过来就可用，把有限的时间花在有用的事情上面吧。下载链接（复制打开）： http://xiaoduo168.taobao.com http://item.taobao.com/item.htm?spm=a1z10.1.w8758192-8915966960.1.zuRajo&id=41473506933

arquitetura-baseada-em-servicos-t1:课堂

08-04

基于服务的架构-t1 同学你好在本活动中，我们将在实践中看到SOA上下文的一部分！没错，我们将通过RESTful API使用REST Web 服务！你会看到，这有多么简单。快点？！对于任何喜欢特许经营的人来说，无论是游戏还是动画，您都会非常喜欢这项活动。我们正在谈论神奇宝贝，任天堂最著名的特许经营权之一。那么，我们将在本活动中使用。它是一个公共 API，使用起来非常简单。在我们开始之前，通过两个简单的步骤了解 REST API 的工作原理很重要：一般而言，我们通过GET方法向服务器发出HTTP 请求。反过来，如果请求有任何问题，服务器将返回一个带有错误代码的HTTP 响应，或者带有所需数据的代码 200（HTTP 成功），在我们的例子中是一个JSON文档。在这个 API 中，我们有我们的端点（请求地址），即： https://pokeapi.co/a

参与评论您还未登录，请先登录后发表或查看评论

0销量7天锁定搜索排名第1页

07-23

教程名称： 0销量7天锁定搜索排名第1页O销量新品’想排名第1页’还大词’有可能吗’有-但不是其他老师讲的1、2点能达到，而需要系统优化10销量宝贝’如何免费引流’流量哪来的’如何能获得更多免费流量’综合排名是怎么回事’七天下架是个神马玩意’为什么你没流星’没排名’翻不到自己的宝贝’因为，你不惜规则一了解搜索排名49个重要因素，像黑夜里亮起展明灯，让你有方向-我们是蚁族，我们倒过来看世资源太大，传百度网盘了，链接在附件中，有需要的同学自取。

天音淘宝店铺复制专家2.74 破解版

04-15

天音淘宝店铺复制专家2.74 破解版淘宝店铺/宝贝批量下载复制大师软件作用：可以复制任意淘宝店铺的宝贝。许多淘宝卖家都是自己没有货的，靠代销就可以赚钱，省心省事。但是代销别人的宝贝，许多店主都是不给你提供数据的，另外很多情况是被复制的店铺店主根本不知情，更不可能给你提供商品数据了，这种情况就要用到我们的软件，会让你事半功倍。看什么销售的好，想卖什么复制过来就卖什么。软件介绍：可以复制任意淘宝普通店铺、旺铺、商城等的宝贝，支持多种复制方式 1：整店复制 2：按分类复制 3：按任意搜索关键字复制 4：自选任意宝贝复制 5：淘宝、商城、3C电器城、良无限等分类搜索复制，详细请查看软件支持下载的地址格式。使用流程：使用宝贝复制大师下载宝贝列表 —> 下载宝贝详细信息 —> 使用淘宝网免费提供的淘宝助理导入—>根据自己的情况批量修改宝贝（地点，价格，运费，，，，） —> 上传宝贝，过几分钟后就可以到您的店铺中看看效果喽。软件激活：使用通行证激活软件，多种支付方式可选、支持多台电脑使用，详情请参考购买和激活软件；如果您在使用过程中有好的建议和要求请不吝指教，请主动联系我们进行软件功能的扩展和改进。无论您是否是软件的正式用户，我们都非常感谢您的意见，软件可能将因此变得更加实用。您的表扬就是我们前进的动力，您的建议就是我们努力的方向。

python 爬虫一键爬取淘宝天猫宝贝页面主图颜色图和详情图的教程

09-20

今天小编就为大家分享一篇python 爬虫一键爬取淘宝天猫宝贝页面主图颜色图和详情图的教程，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧

还在玩数据仓库？现在已经是 LakeHouse 时代！

过往记忆大数据

02-03

1251

本文翻译自：https://databricks.com/blog/2020/01/30/what-is-a-data-lakehouse.html，由 ApacheHudi 公众号翻译...

大数据之Hudi + Kylin的准实时数仓实现

ytp552200ytp的博客

05-22

1008

问题导读： 1、数据库、数据仓库如何理解？ 2、数据湖有什么用途？解决什么问题？ 3、数据仓库的加载链路如何实现？ 4、Hudi新一代数据湖项目有什么优势？在近期的 Apache Kylin × Apache Hudi Meetup 直播上，Apache Kylin PMC Chair 史少锋和 Kyligence 解决方案工程师刘永恒就 Hudi + Kylin 的准实时数仓实现进行了介绍与演示。下文是分享现场的回顾。我的分享主题是《基于 Hudi 和 Kylin 构建准实时、高性能数据仓库》，除了讲义介

Databricks说的Lakehouse是什么？

大数据学习与分享的博客

08-25

1153

在过去的几年里，Lakehouse作为一种新的数据管理范式，已独立出现在Databricks的许多用户和应用案例中。在这篇文章中，我们将阐述这种新范式以及它相对于之前方案的优势。 数据仓库在决策支持和商业智能应用方面有着悠久的历史。自20世纪80年代末问世以来，数据仓库技术一直在持续不断的发展，并且MPP体系架构使系统能够处理更大的数据量。尽管数据仓库非常适合处理结构化数据，但是对于很多现代企业，对非结构化数据、半结构化数据以及具有高多样性、高速度、高容量特性的数据处理也往往是必须的，数据仓库并不适用于此.

来来来，给你看个宝贝儿~

<sdffdsfsdfdfs>sfsfsfsdfsdffds</sdfsDS>Fsd

11-23

584

“相关推荐”对你有帮助么？

非常没帮助
没帮助
一般
有帮助
非常有帮助

提交