![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 86
大数据左右手
大数据公众号:大数据左右手
Python公众号:Python王哪去
展开
-
城市二手房数据分析与房价预测
python pyspark spark ml原创 2024-05-07 16:54:44 · 350 阅读 · 1 评论 -
数据应用OneID:ID-Mapping Spark GraphX实现
数据应用OneID:ID-Mapping原创 2024-04-11 08:55:01 · 1065 阅读 · 0 评论 -
SQL:记录状态
练习原创 2024-03-27 16:54:46 · 339 阅读 · 0 评论 -
即席查询框架怎么选?
Kylin,Impala,Presto,Druid 特点和不同原创 2024-02-06 22:16:41 · 1077 阅读 · 0 评论 -
Flink面试准备
flink面试准备原创 2024-02-05 09:20:18 · 1502 阅读 · 0 评论 -
Zookeeper相关面试准备问题
Zookeeper相关面试问题原创 2024-02-04 15:27:17 · 985 阅读 · 0 评论 -
Kafka相关内容复习
kafka面试准备原创 2024-02-04 14:39:59 · 2189 阅读 · 0 评论 -
HBase相关面试准备问题
hbase相关内容原创 2024-02-04 14:38:23 · 1734 阅读 · 0 评论 -
Hive 主要内容一览
hive面试原创 2024-02-03 18:55:03 · 1221 阅读 · 0 评论 -
在sql优化的过程中,有没有面试说出后比较新颖的案例,而不是老一套的八股文?
面试场景原创 2024-02-03 14:45:29 · 108 阅读 · 0 评论 -
大数据命令,一文在手,全部都有2.0
一文在手,全部都有原创 2024-01-29 08:10:13 · 881 阅读 · 0 评论 -
Parquet文件推送数据到OSS
数据推送原创 2024-01-28 18:23:25 · 420 阅读 · 0 评论 -
这些SQL你练习过吗?(网友提供的SQL)
网友提供sql原创 2024-01-27 11:00:09 · 710 阅读 · 0 评论 -
写给刚入学大数据专业或迷茫在为几两碎银转行的你
你有没有想过你要怎么计划去学习呢?原创 2022-06-22 09:37:31 · 969 阅读 · 2 评论 -
文件存储格式:ORC 与 Parquet的较量
文件存储格式:ORC 与 Parquet的较量原创 2022-06-16 08:59:37 · 3531 阅读 · 0 评论 -
重回大学:CPU 核数 进程 线程 串行 并发 并行 同步 异步 你分清楚了吗?
CPU 核数 进程 线程 串行 并发 并行 同步 异步原创 2022-01-24 10:47:34 · 1522 阅读 · 0 评论 -
数仓:事实表设计方法,原则和三种类型选择
原创 2022-01-24 10:43:24 · 3500 阅读 · 0 评论 -
数仓:用户行为类指标一网打尽
前言用户行为分析是对用户在产品或触点上产生的行为及行为背后的数据进行分析,通过构建用户行为数据分析体系或者用户画像,来改变产品、营销、运营决策,实现精细化运营,指导业务增长。总之,很重要。关注公众号,回复关键字 【资料】,获取【10万字大数据框架面试知识点】与【大数据开发的命令手册】先来看下用户类行为指标说明,然后下面详解常写的指标。指标名称解释说明新增用户首次联网使用应用的用户,如果一个用户首次打开某APP,那这个用户定义为新增用户:卸载再安装的设备,不会被算作一次新增,新原创 2022-01-24 10:40:22 · 2797 阅读 · 2 评论 -
大数据命令,一文在手,全部都有(送纯净版文档)
在学习的时候,就发现如果有个大数据命令一览文档多好,现在实现了原创 2021-11-23 13:59:43 · 2219 阅读 · 1 评论 -
Hadoop学习与面试8000字,收藏这一篇就够了
8000字hadoop学习与面试总结,去大厂这一篇就够了原创 2021-09-14 11:19:58 · 523 阅读 · 0 评论 -
大数据之分布式协调神器:Zookeeper选举
一文了解集群选举原理。理论总结与面试,这篇就够了!!!原创 2021-09-11 16:50:59 · 342 阅读 · 0 评论 -
查询引擎怎么选?7000字解析所有开源引擎的秘密
现在市场上运用更多的是:Kylin、Druid、Presto、Impala等等这些框架去诠释大数据即席查询的功能。 此篇就来介绍四种框架的优缺点,用途与场景选择。原创 2021-09-11 16:47:12 · 396 阅读 · 0 评论 -
你的数据倾斜了吗?一文帮你数据处理再均衡
Hive,Flink,Spark出现数据倾斜的表现,原因和解决办法,认识到不同框架或者计算引擎处理倾斜的方案原创 2021-09-11 16:36:56 · 216 阅读 · 0 评论 -
Flink执行流程与源码分析(面试必问,建议收藏)
Flink面试必问,架构与执行流程,附带源码解析。值得你收藏拥有原创 2021-09-11 16:19:57 · 1397 阅读 · 0 评论 -
六千字长文:大数据框架(分区,分桶,分片),建议收藏
在大数据分布式中,分区,分桶,分片是设计框架的重点。此篇就来总结各个框架。建议收藏原创 2021-06-19 08:26:01 · 406 阅读 · 0 评论 -
Flink的状态与容错
Flink状态与容错检查点机制,状态管理器,状态周期原创 2021-01-27 11:34:00 · 391 阅读 · 0 评论 -
Flink CEP - Flink的复杂事件处理
检测和发现无界事件流中多个记录的关联规则,也就是从无界事件流中得到满足规则的复杂事件原创 2021-01-27 11:29:36 · 375 阅读 · 0 评论 -
Flink的一致性保证
Flink的检查点和恢复机制定期的会保存应用程序状态的一致性检查点原创 2021-01-27 11:21:31 · 1070 阅读 · 3 评论 -
Elasticsearch,从一个浪漫的故事开始(原理篇)
Elasticsearch,从一个浪漫的故事开始原创 2020-06-15 15:18:28 · 489 阅读 · 0 评论 -
你知道搜索是怎样的一个原理吗?对话形式通俗易懂
不管你是做计算机技术的,还是其他工作岗位的,我相信你都能看懂,可以算是一个老少皆宜的文章,来吧,多学习没坏处原创 2020-06-15 15:14:15 · 283 阅读 · 0 评论 -
欢迎关注我的公众号“大数据左右手”,感谢大家支持和鼓励
微信公众号写技术类的(java,scala,大数据,机器学习等等)或者是生活小矫情类的文章原创 2020-05-20 12:53:57 · 331 阅读 · 0 评论 -
otter,阿里巴巴分布式数据库同步系统
otter,阿里巴巴分布式数据库同步系统原创 2020-05-19 13:40:58 · 1697 阅读 · 0 评论 -
hive 启动元数据服务(metastore和hiveserver2)和优雅关闭脚本
Hive 启动元数据服务(metastore和hiveserver2)和优雅关闭脚本原创 2020-04-30 11:13:08 · 3111 阅读 · 0 评论 -
RDD任务切分之Stage任务划分(图解和源码)
RDD任务切分之Stage任务划分(图解和源码)原创 2020-01-12 18:07:13 · 1117 阅读 · 0 评论 -
Spark key-value类型算子总结(图解和源码)
Spark key-value类型算子总结(图解和源码)原创 2020-01-11 18:36:04 · 826 阅读 · 0 评论 -
Spark-单value算子总结(图解和源码)
Spark-单value算子总结原创 2020-01-10 23:13:00 · 765 阅读 · 0 评论