魅美-CSDN博客

原创大数据技术之SparkCore

RDD概述什么是RDDRDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象。代码中是一个抽象类，它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。RDD五大特性RDD编程RDD的创建在Spark中创建RDD的创建方式可以分为三种：从集合中创建RDD、从外部存储创建RDD、从其他RDD创建。从集合中创建1）从集合中创建RDD：parallelizeimport org.apache.spark.SparkC

2024-11-23 11:08:09 1435 1

原创 Hive 解决数据倾斜方法

数据倾斜问题，通常是指参与计算的数据分布不均，即，进而导致该 Reduce 所需的时间远超其他 Reduce，成为整个任务的瓶颈。Hive 中的数据倾斜常出现在分组聚合和 join 操作的场景中，下面分别介绍在上述两种场景下的优化思路。

2024-04-15 20:23:20 1513

原创 Hive表的优化

将 key 相对分散，并且数据量小的表放在 join 的左边，可以使用 map join 让小的维度表先进内存。在 map 端完成 join。实际测试发现：新版的 hive 已经对小表 JOIN 大表和大表 JOIN 小表进行了优化。小表放在左边和右边已经没有区别。1）空 KEY 过滤有时 join 超时是因为某些 key 对应的数据太多，而相同 key 对应的数据都会发送到相同的 reducer 上，从而导致内存不够。此时我们应该仔细分析这些异常的 key，很多情况下，这些 key 对应的数据是异常数

2024-04-15 19:10:17 1252

原创维度建模理论之维度表

维度表是维度建模的基础和灵魂。前文提到，事实表紧紧围绕业务过程进行设计，而维度表则围绕业务过程所处的环境进行设计。维度表主要包含一个主键和各种维度字段，维度字段称为维度属性。

2024-03-20 17:23:25 1169

原创维度建模理论之事实表

事实表作为数据仓库维度建模的核心，紧紧围绕着业务过程来设计。其包含与该业务过程有关的维度引用（维度表外键）以及该业务过程的度量（通常是可累加的数字类型字段）。事务型事实表用来记录各业务过程，它保存的是各业务过程的原子操作事件，即最细粒度的操作事件。粒度是指事实表中一行数据所表达的业务细节程度。事务型事实表可用于分析与各业务过程相关的各项统计指标，由于其保存了最细粒度的记录，可以提供最大限度的灵活性，可以支持无法预期的各种细节层次的统计需求。

2024-03-20 16:15:26 970

原创数据仓库相关概述

数据模型就是数据组织和存储方法，它强调从业务、数据存取和使用角度合理存储数据。只有将数据有序的组织和存储起来之后，数据才能得到高性能、低成本、高效率、高质量的使用。高性能：良好的数据模型能够帮助我们快速查询所需要的数据。低成本：良好的数据模型能减少重复计算，实现计算结果的复用，降低计算成本。高效率：良好的数据模型能极大的改善用户使用数据的体验，提高使用数据的效率。高质量：良好的数据模型能改善数据统计口径的混乱，减少计算错误的可能性。

2024-03-20 15:37:02 1036

原创 Kafka3.x进阶

acks=0，生产者发送过来数据就不管了，

2024-02-22 16:47:25 1502

原创 KafKa3.x基础

Kafka传统定义：Kafka是一个分布式的基于发布/订阅模式的消息队列（MessageQueue），主要应用于大数据实时处理领域。发布/订阅：消息的发布者不会将消息直接发送给特定的订阅者，而是将发布的消息分为不同的类别，订阅者只接收感兴趣的消息。Kafka最新定义： Kafka是一个开源的分布式事件流平台（Event Streaming Platform），被数千家公司用于高性能数据管道、流分析、数据集成和关键任务应用。

2024-02-22 16:46:51 765

原创 HBase 进阶

每一个 region 维护着 startRow 与 endRowKey，如果加入的数据符合某个 region 维护的rowKey 范围，则该数据交给这个 region 维护。那么依照这个原则，我们可以将数据所要投放的分区提前大致的规划好，以提高 HBase 性能。1）手动设定预分区2）生成 16 进制序列预分区3）按照文件中设置的规则预分区aaaabbbbccccdddd4）使用 JavaAPI 创建预分区import org。

2024-02-19 21:38:45 1765

原创 HBase API

参考来源: B站尚硅谷HBase2.x新建Maven项目后在 pom.xml 中添加依赖：注意：会报错 javax.el 包不存在，是一个测试用的依赖，不影响使用创建连接根据官方 API 介绍，HBase 的客户端连接由 ConnectionFactory 类来创建，用户使用完成之后需要手动关闭连接。同时连接是一个重量级的，推荐一个进程使用一个连接，对 HBase的命令通过连接中的两个属性 Admin 和 Table 来实现。多线程创建连接使用类单例模式,确保使用一个连接，可以同时用于多个线程。

2024-02-19 17:55:32 805

原创 Hadoop3.x基础（4）- Yarn

则两个应用分别需要A（2%CPU, 3%内存）和B（6%CPU, 1%内存）的资源，这就意味着A是内存主导的, B是CPU主导的，针对这种情况，我们可以选择DRF策略对不同应用进行不同资源（CPU和内存）的一个不同比例的限制。DRF（Dominant Resource Fairness），我们之前说的资源，都是单一标准，例如只考虑内存（也是Yarn默认的情况）。需求1：default队列占总内存的40%，最大资源容量占总资源60%，hive队列占总内存的60%，最大资源容量占总资源80%。

2024-02-03 23:43:35 1712

原创 Hadoop3.x基础（3）- MapReduce

MapReduce是一个分布式运算程序的编程框架，是用户开发“基于Hadoop的数据分析应用”的核心框架。MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个Hadoop集群上。1）什么是序列化序列化就是把内存中的对象，转换成字节序列（或其他数据传输协议）以便于存储到磁盘（持久化）和网络传输。反序列化就是将收到字节序列（或其他数据传输协议）或者是磁盘的持久化数据，转换成内存中的对象。2）为什么要序列化。

2024-02-01 21:30:14 1144

原创 Hadoop3.x基础（2）- HDFS

1）HDFS产生背景随着数据量越来越大，在一个操作系统存不下所有的数据，那么就分配到更多的操作系统管理的磁盘中，但是不方便管理和维护，迫切需要一种系统来管理多台机器上的文件，这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。2）HDFS定义HDFS（Hadoop Distributed File System），它是一个文件系统，用于存储文件，通过目录树来定位文件；其次，它是分布式的，由很多服务器联合起来实现其功能，集群中的服务器有各自的角色。适合一次写入，多次读出的场景。

2024-01-30 08:00:00 1180

原创 Hadoop3.x基础（1）

1）Hadoop是一个由Apache基金会所开发的分布式系统基础架构。2）主要解决，海量数据的存储和海量数据的分析计算问题。3）广义上来说，Hadoop通常是指一个更广泛的概念——**Hadoop生态圈**。Hadoop Distributed File System，简称HDFS，是一个分布式文件系统。1）NameNode（nn）：存储文件的元数据，如文件名，文件目录结构，文件属性（生成时间、副本数、文件权限），以及每个文件的块列表和块所在的DataNode等。

2024-01-29 14:33:20 1098

原创 Flink SQL（续）

Flink的Table API和SQL提供了多种自定义函数的接口，以抽象类的形式定义。标量函数（Scalar Functions）：将输入的标量值转换成一个新的标量值；表函数（Table Functions）：将标量值转换成一个或多个新的行数据，也就是扩展成一个表；聚合函数（Aggregate Functions）：将多行数据里的标量值转换成一个新的标量值；表聚合函数（Table Aggregate Functions）：将多行数据里的标量值转换成一个或多个新的行数据。1）整体调用流程。

2024-01-29 08:00:00 1208

原创 Hive3.1.3基础（续）

压缩格式算法文件扩展名是否可切分DEFLATEDEFLATE.deflate否GzipDEFLATE.gz否bzip2bzip2.bz2是LZOLZO.lzo是SnappySnappy.snappy否为了支持多种压缩/解压缩算法，Hadoop引入了编码/解码器，如下表所示：Hadoop查看支持压缩的方式hadoop checknative。Hadoop在driver端设置压缩。压缩格式对应的编码/解码器DEFLATEgzipbzip2LZO。

2024-01-27 17:35:36 1173

原创 Hive3.1.3基础

1）Hive简介Hive是由Facebook开源，基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。那为什么会有Hive呢？它是为了解决什么问题而诞生的呢？下面通过一个案例，来快速了解一下Hive。例如：需求，统计单词出现个数。（1）在Hadoop中用MapReduce程序实现的，需要写Mapper、Reducer和Driver三个类，并实现对应逻辑，相对繁琐。（2）如果通过Hive SQL实现，一行就搞定了，简单方便，容易理解。

2024-01-26 22:24:06 1935

原创 Flink SQL

1）创建数据库（1）语法（2）案例2）查询数据库（1）查询所有数据库（2）查询当前数据库3）修改数据库4）删除数据库RESTRICT：删除非空数据库会触发异常。默认启用CASCADE：删除非空数据库也会删除所有相关的表和函数。5）切换当前数据库。

2024-01-19 14:59:53 1206

原创 Flink1.17 基础知识

Flink1.17 基础知识来源：B站尚硅谷目录Flink1.17 基础知识Flink 概述Flink 是什么Flink特点Flink vs SparkStreamingFlink的应用场景Flink分层APIFlink快速上手创建项目WordCount代码编写批处理流处理Flink部署集群角色部署模式会话模式（Session Mode）单作业模式（Per-Job Mode）应用模式（Application Mode）Standalone运行模式（了解）会话模式部署单作业模式部署应用模式部署YARN运行

2024-01-18 20:01:02 1558

原创线性插值、双线性插值、双三次插值学习笔记-图像处理

B站了解线性插值、双线性插值、双三次线性插值

2022-11-21 19:56:00 1257 1

原创深入理解计算机系统——知识总结（二）

---------------------------------先写第九章的内容-------------------------------------

2022-08-04 23:55:46 953 1

原创动态规划——连续子数组最大和/乘积

动态规划

2022-07-07 15:40:18 989

原创 echarts结合百度地图使用

百度地图结合echarts显示

2022-07-05 16:44:24 6336 3

原创 GraphQL入门

npm init -y下载依赖包+添加 .babelrc 文件在package.json中添加运行命令创建index.js文件(入口文件)创建api文件夹，在文件夹内新增schema.js、resolvers.jsschema.js内容resolvers.js内容运行运行成功在浏览器上打开http://localhost:4000/graphql，然后点击Query your server就可以进入数据操作界面。字段（Fields）简单而言，Grap

2022-06-22 18:31:08 469

原创下载scikit_learn

直接下载的话，可能会报以下的错误解决方法：在python中输入以下代码运行，查看包文件命名输出结果下载SciPy下载sklearn注意：这里的路径要和你下载包的路径一致

2022-06-16 11:54:59 7530

原创 Python爬虫的初体验——简单的例子

爬虫的简单例子网址：http://www.ci123.com/baike/nbnc/31输出结果：一个表（excel 或数据库）三个字段分别是类型、标题、html富文本。爬虫代码如下：import requestsfrom bs4 import BeautifulSoupimport xlwturl = 'http://www.ci123.com/baike/nbnc/'headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10

2022-04-20 18:24:13 1560

原创深入理解计算机系统——知识总结

第 1 章计算机系统漫游#include <stdio.h>int main(){ printf ( "Hello, world\n") ; return 0;}尽管hello程序非常简单，但是为了它的运行，系统的每个主要组成部分需要协调工作，本书就是了解在系统执行hello程序时，系统发生了什么以及问什么会这样。本章就是通过跟踪hello程序的生命周期来开始对系统进行学习——从它开始被程序员创建开始，到在系统上运行，输出简单的消息，然后终止的过程。1.1 信息就

2022-04-11 14:29:12 17894 3

原创深入理解计算机系统读书笔记

第1章1.1 信息就是位+上下文源程序实际上就是一个由值0和1组成的位（又称位比特）序列，8个位被组织成一组，称为字节（表示程序中的文本字符）。程序是以字节序列的方式存储在文件中的，每个字节都有一个整数值，对应于某些字符，每个文本行都是以一个看不见的换行符’\n‘来结束。只由ASCII字符构成的文件称为文本文件，所有其他文件都称为二进制文件。系统中的所有信息———包括磁盘文件、内存中的程序、内存中存放的用户数据以及网络上传送的数据，都是由一串比特表示。区分不同的数据对象的唯一方法就是读到这些数据对象

2022-01-15 11:26:49 865

空空如也

空空如也