大数据
文章平均质量分 92
昊昊该干饭了
愿有来生 不入江湖
展开
-
深入浅出Hive性能优化策略
我们将从基础的HiveQL优化讲起,涵盖数据存储格式选择、数据模型设计、查询执行计划优化等多个方面。会的直接滑到最后看代码和语法。原创 2024-03-17 15:23:18 · 1302 阅读 · 0 评论 -
云计算服务模型:IaaS、PaaS和SaaS
IaaS、PaaS和SaaS构成了云服务的三大模型,分别提供了基础设施、平台和软件的即服务解决方案。IaaS提供最大的灵活性和可扩展性,适合需要深度控制基础设施的用户。PaaS简化了开发过程,加速应用部署,适用于开发者和初创公司。而SaaS为终端用户提供即开即用的应用,强调便捷性和易用性。理解这些模型的关键特性和适用场景,有助于根据具体需求做出明智的云服务选择。原创 2024-03-16 14:16:14 · 1619 阅读 · 0 评论 -
MongoDB从0到1:高效数据使用方法
MongoDB,作为一种流行的NoSQL数据库。从基础的文档存储到复杂的聚合查询,从索引优化到数据安全都有其独特之处。文末附MongoDB常用命令大全。原创 2024-03-13 13:24:00 · 1342 阅读 · 0 评论 -
提升Hive效能:实用技巧与最佳实践
我们深入探讨了Hive的多个关键方面,包括查询性能优化、表结构管理、HiveQL编写技巧,以及性能监控和调优。每个部分都提供了实用的技巧和建议,旨在帮助大家更有效地使用Hive来处理和分析大规模数据。原创 2023-12-21 16:39:19 · 14255 阅读 · 0 评论 -
掌握实时数据流:使用Apache Flink消费Kafka数据
希望能够帮助大家更深入地理解Flink和Kafka在实时数据处理中的应用,以及如何高效地利用这些强大的工具。原创 2023-12-19 11:10:43 · 15285 阅读 · 0 评论 -
大规模数据可视化(纯文字干货科普)
探讨在处理大规模数据集时如何有效地进行数据可视化,如何在大数据分析中有效传达信息,包括交互式探索、实时仪表板和复杂数据故事讲述原创 2023-12-16 17:21:24 · 2194 阅读 · 0 评论 -
SQL进阶 - SQL的编程规范
性能优化是一个很有趣的探索方向,将耗时耗资源的查询优化下来也是一件很有成就感的事情,但既然编程是一种沟通手段,那每一个数据开发者就都有义务保证写出的代码逻辑清晰,具有很好的可读性。原创 2023-10-07 15:56:44 · 1453 阅读 · 0 评论 -
漫谈大数据 - 如何设计业务埋点方案与数据采集应用
全文1.5万字,建议阅读时间35min。业务埋点和数据分析是在用户行为和业务数据上进行跟踪、收集和分析的关键方法,用于了解用户行为模式、改进产品和服务,并做出数据驱动的决策。原创 2023-06-06 13:58:52 · 4184 阅读 · 0 评论 -
shell编程(编写、执行,shell变量、传参、字符串、运算符使用)
不会shell真的烦,生产运维总添乱。一文带你从小白顺利入门shell脚本编程。文章包含shell脚本的编写与执行,还有shell变量、传参、字符串、运算符的使用方法和总结。原创 2023-05-22 11:26:21 · 2118 阅读 · 0 评论 -
漫谈大数据 - 数据湖认知篇
数据湖是目前比较热的一个概念,许多企业都在构建或者准备构建自己的数据湖。但是在计划构建数据湖之前,搞清楚什么是数据湖,明确一个数据湖项目的基本组成,进而设计数据湖的基本架构,对于数据湖的构建至关重要。原创 2023-04-27 12:05:55 · 2235 阅读 · 0 评论 -
漫谈大数据 - 大数据相关面试题
导语:最近在招一个大数据开发,做一个问题记录。发现我们的应届生们背的题还是很宽的,为什么说是背,因为我也没指望一个应届生有多深的项目经验,所以这些问题的答案不是背的难道是做了好几年数据开发把坑都踩完了原创 2023-04-24 15:48:40 · 1518 阅读 · 0 评论 -
漫谈大数据 - HiveSQL总结(二)查询操作
导语:HiveSQL各关键字详解,hive函数大全,类似于个人记录工具书,后续遇到其他的也会继续加进来。原创 2023-04-21 16:01:11 · 3194 阅读 · 0 评论 -
漫谈大数据 - HiveSQL总结(一)库表操作
针对hive各种数据库操作,内部表、外部表、分区表、分桶表的表属性查看修改操作以及hive数据的导入与导出详解。原创 2023-04-21 15:10:43 · 1995 阅读 · 0 评论 -
漫谈大数据 - Spark SQL详解,参数调优
SparkSQL详解,底层原理,执行过程,参数调优原创 2022-04-27 11:40:15 · 28352 阅读 · 0 评论 -
漫谈大数据 - Spark on Hive & Hive on Spark
Spark on Hive & Hive on Spark你分清了吗原创 2022-04-24 20:21:29 · 27008 阅读 · 0 评论 -
漫谈大数据 - 基于SparkSQL的离线数仓
数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。 为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。原创 2022-04-13 20:41:50 · 36903 阅读 · 1 评论 -
漫谈大数据 - 实时数据仓库以及大厂实际应用
数据库是面向事务的设计,数据库一般存储在线交易数据, 数据库设计是尽量避免冗余,一般采用符合范式的规则来设计,数据库是为捕获数据而设计。数据仓库是面向主题设计的,数据仓库存储的一般是历史数据,数据仓库在设计是有意引入冗余,采用反范式的方式来设计,数据仓库是为分析数据而设计。原创 2022-04-12 20:24:35 · 31563 阅读 · 0 评论 -
hadoop介绍
目录大数据与HadoopHadoop模块:Hadoop Common:Hadoop 分布式文件系统 (HDFS):Hadoop YARN:Hadoop MapReduce:Hadoop生态圈组件:Spark(分布式计算框架)Flink(分布式计算框架)Zookeeper(分布式协作服务)Sqoop(数据同步工具)Hive/Impala(基于Hadoop的数据仓库)HBase(分布式列存储数据库)Kafka(分布式消息队列)Tez(数据流编程框架)原创 2022-04-08 14:48:30 · 29730 阅读 · 0 评论