搞数据的小杰-CSDN博客

原创 linux系统mysql一键安装脚本

sh mysql8_install.sh install 开始下载。根据自己的tar包版本和路径自行修改。

2024-08-09 15:43:08 130

原创数据分析-AARRR漏斗模型案例

漏斗模型是一套流程式数据分析模型，用来反映用户在流程里的关键行为以及从起点到终点个阶段转化和流失情况漏斗分析模型已经广泛应用于类产品，且功能十分强大：它可以评估总体或各个环节的转化情况、促销活动效果；也可以与其他数据分析模型结合进行深度用户行为分析（如多维下钻分析、用户分群、对比分析等），从而找到用户流失的原因，以提升用户量、活跃度、留存率。

2024-08-06 20:49:28 818

3. 项目打jar包上传到/opt/installs/datax/plugin/reader/mongodbreader/libs/目录下。创建表，并且数据 : db.w_demo.insert({"name":"王明","age":"10","grade":"小学"})1.1 创建repo文件，MongoDB数据库不在yum的官方仓库，通过配置如下文件，可以通过yum下载MongoDB。将idea中打的jar包上传到datax的mongodbreader下，替换原本的插件jar包。

2024-07-30 14:33:01 976

原创 Hive的表分类

所谓的管理表指hive是否具备数据的管理权限，如果该表是管理表，当用户删除表的同时，hive也会将表所对应的数据删除，因此在生产环境下，为了防止误操作，带来数据损失，一般考虑将表修改为非管理表-外部表。外部表和管理表最大的区别在于删除外部表，只是将MySQL中对应该表的元数据信息删除，并不会删除hdfs上的数据，因此外部表可以实现和第三方应用共享数据。总结：Hive的管理，表结构，hdfs中表的数据文件，都归Hive全权管理。如果删除某个分区，则将分区对应的数据也删除(外部表，数据删除，数据文件依然在)。

2024-07-19 08:48:14 963

原创 Hive自定义函数

操作作用于单个数据行，并且产生一个数据行作为输出。大多数函数都属于这一类（比如数学函数和字符串函数）。简单来说：UDF:返回对应值，一对一# 0. 导入hive依赖# 1.定义一个类继承UDF1. 必须继承UDF2. 方法名必须是evaluate// 方法名必须叫evaluatereturn "你好，"+s1;# 2. 配置maven打包环境，打包jar--解决编码的GBK的问题--><build></build># 打包# 3. 上传linux，导入到函数库中。

2024-07-15 20:18:48 1117

原创 Python装饰器

一个函数的执行时间统计可以这样去统计，可是如果是多个函数呢？可以使用函数参数来实现。基本的功能解决了，如果想要通过调用原来函数的名字，既能实现原来的功能，又能统计消耗的时间，又该怎么做呢？例如: print_nine_table() 既能打印九九乘法表，又能打印消耗的时间。此时出现问题，如果我将transform的返回值使用print_nine_table接收，那么就不能求print_nine_table本身的时间了。此时又出现了重复的操作: 定义第三方变量，赋值、调用，因此，能不能把这个过程再简化一下？

2024-07-13 09:26:40 388

原创 Python闭包

外部函数发现，自己的临时变量会在将来的内部函数中用到，自己在结束的时候，返回内函数的同时，会把外函数的临时变量送给内函数绑定在一起。Python中一切都是对象，虽然函数只定义了一次，但是外函数在运行的时候，实际上是按照里面代码执行的，外函数里创建了一个函数，我们每次调用外函数，它都创建一个内函数，虽然代码一样，但是却创建了不同的对象，并且把每次传入的临时变量数值绑定给内函数，再把内函数引用返回。如果一个函数里定义了一个内部函数，这个函数引用了外部函数的相关参数或变量，外部函数最终把这个内部函数返回了，

2024-07-13 09:19:43 633

原创 HDFS体系架构

HDFS: 全称Hadoop Distributed File System 中文：hadoop分布式文件系统说明：HDFS是hadoop内的一个子技术作用: 解决海量数据存储问题特点：分布式文件存储系统（多台计算机联合存储）突破单体服务器的存储瓶颈。

2024-07-11 10:52:44 1173

原创 Hive数据仓库建模理论

粒度定义意味着对各事实表行实际代表的内容给出明确的说明。粒度传递了同事实表度量值相联系的细节所达到的程度方面的信息。它给出了后面这个问题的答案:“如何描述事实表的单个行?粒度定义是不容轻视的至关重要的步骤。在定义粒度时应优先考虑为业务处理获取最有原子性的信息而开发维度模型。原子型数据是所收集的最详细的信息，是高维度结构化的。度量值越细微并具有原子性，就越能够确切地知道更多的事情。原子型数据可为分析方面提供最大限度的灵活性，维度模型的细节性数据是稳如泰山的，并随时准备接受业务用户的特殊攻击。

2024-07-03 18:54:40 886

原创 Hive数据倾斜问题

在表数据关联的时候，将小表的数据加载到内存中，开启大表桶个数的map任务，并且将小表桶数据加载到与大表对应桶位置对应(相同或者成倍数关系)的map任务的内存中去，然后以map join的方式执行，这种方式与map join的区别一是数据进行过滤，并不是全数加载到内存中，二是数据是有序的，降低扫描次数，提升效率。其实数据倾斜这个问题，在MapReduce编程模型中十分常见，根本原因就是大量相同的key被分配到一个reduce里，造成一个reduce任务处理不过来，但是其他的reduce任务没有数据可以处理。

2024-07-02 14:38:46 1009

原创帆软FineBI考试分享

为了减少中间表的制作， FineBI6.0 新增的一个功能，可以实现类似 Excel 中的 lookup、sumif 函数的效果。普通用户A做了一张模板，他做的模板想要以公共链接的方式分享出去，那么分享出去的模板数据权限只有普通用户A的数据权限(得分：2分满分：2分)A. 在【公共数据】中选择想要进行分析的数据，点击右上方的「创建分析主题」按钮，可以重命名分析主题的名称、选择该分析主题放置的位置。同比环比的快速计算，不会因为时间控件的过滤而导致不在区间内的数据同比环比无法计算(得分：2分满分：2分)

2024-07-01 11:11:37 1192

n2670820434的博客