BigData_流动熵的博客-CSDN博客

BigData

文章平均质量分 69

每篇文章 = 思路拆解 + 代码实战 + 性能 Benchmark，带你把‘大数据‘真正做成‘大价值‘。

文章数：217 文章阅读量：218230 文章收藏量：445

作者: 流动熵

量化全球资金熵增轨迹，在无序中寻找可重复的有序片段

展开

专栏收录文章

《从月薪3千到年薪百万：顶级数据分析师绝密思维武器库》

"月入3万"的煎饼摊前，菜鸟在计算面粉成本，高手在破解流量密码：某头部连锁煎饼品牌操盘手，通过锁定"黄金3小时选址法"，把单店营收拉升300%。这套价值百万的思维体系，是时候升级你的分析武器库了。立即保存这份指南，用30天时间刻意练习，你会突然发现：那些曾让你熬夜秃头的数据，开始主动向你诉说商业真相。🎯 漏斗分析法进阶：不仅要看流失率，更要计算每个环节的"价值渗出量"。某教育机构通过计算试听课到正价课的"注意力密度"，把转化率提升至行业3倍。回复"分析全景图"获取完整思维导图，内含21个行业分析模板。

原创 2025-02-12 22:28:28 · 104 阅读 · 0 评论
Hivesql基础查询

对题目进行分析，没有学全所有课程，也就是说该学生选修的课程数量小于总的课程数。第二步：将第一步中获取的课程编号作为条件，查询成绩表获取相关信息，并根据学生。第二步：将第一步中获取的课程编号作为条件，查询成绩表获取相关信息，并根据学生。第二步：将成绩表和学生表进行关联查询，关联字段为学生编号，并按照学生编号和姓。第一步：查询成绩表，按照学生编号分组，获取每一个学生的平均成绩。查询每门课程的平均成绩，结果按平均成绩升序排序，平均成绩相同时，按课程号。查询该学生不同课程的成绩相同的学生编号、课程编号、学生成绩。

原创 2024-02-15 10:07:19 · 181 阅读 · 0 评论
如何做好业务理解

深入研究行业：以电子商务行业为例，你可以学习有关该行业的基本知识，如在线购物平台、数字支付系统、物流配送等。例如，你可以研究他们的电子商务平台是如何运作的，包括供应链管理、营销策略、用户界面等。例如，你需要了解什么是B2C（企业对消费者）、C2C（消费者对消费者）交易模式，以及常见的电子商务支付方式如支付宝、微信支付等。通过这样的交流，你可以借鉴他们的经验和见解，了解行业中的最佳实践和创新思路。例如，你可以研究其他类似的电子商务平台，了解他们的优势和特点。

原创 2023-08-09 17:08:05 · 386 阅读 · 0 评论
NLP总结

当进行自然语言处理任务时，文本预处理是一个重要的步骤，它涉及到对文本数据进行清洗、规范化和转换，以便后续的NLP任务能够更好地进行。3. 停用词去除：停用词是指在文本中频繁出现但缺乏实际含义的单词，例如 "a"、"the"、"is" 等。基于深度学习的NLP模型：深入了解深度学习在NLP中的应用，包括循环神经网络（RNN）、长短时记忆（LSTM）、Transformer等模型。1. 文本清洗：这是预处理的第一步，目的是去除文本中的噪声和不必要的字符。这样可以避免对于大小写敏感的问题，并减少特征空间的大小。

原创 2023-08-09 15:59:40 · 174 阅读 · 0 评论
大数据面试真题_数据仓库

1.维表和宽表（主要考察维表的使用及维度退化手法）

原创 2023-08-01 11:41:42 · 1276 阅读 · 0 评论
关于新一代票据业务系统最全介绍

新一代票据业务系统，替代了之前两个系统的分割管理的状态，一方面继承和优化CPES系统功能规则，另一方面重构原来ECDS业务流程和习惯的功能规则，以创新思维导向和问题解决导向为亮点，面向全体市场参与主体和未来，搭建的一个统一处理票据全生命周期系统平台。而老系统中，票据样式包含票据正面和票据背面，且票据正面新老系统也有所变化。以下图为例，图示票据（包）的总金额为10000元，在新系统中，贴现人可以选择分包贴现，比如仅贴现900元，则企业只需在“交易金额”框中手动输入900元，即可完成分包贴现操作。

原创 2023-07-28 11:59:49 · 1147 阅读 · 0 评论
数据仓库常用几种建模方法

从笔者的经验来看，再没有现成的行业模型的情况下，我们可以采用实体建模的方法，和客户一起理清整个业务的模型，进行领域概念模型的划分，抽象出具体的业务概念，结合客户的使用特点，完全可以创建出一个符合自己需要的数据仓库模型来。因此，在整个数据仓库的模型的设计和架构中，既涉及到业务知识，也涉及到了具体的技术，我们既需要了解丰富的行业经验，同时，也需要一定的信息技术来帮助我们实现我们的数据模型，最重要的是，我们还需要一个非常适用的方法论，来指导我们自己针对我们的业务进行抽象，处理，生成各个阶段的模型。

转载 2023-07-10 22:36:26 · 500 阅读 · 0 评论
数仓分层设计架构详解-ODS-DWD-DWS-ADS

一、数仓建模的意义，为什么要对数据仓库分层？只有数据模型将数据有序的组织和存储起来之后，大数据才能得到高性能、低成本、高效率、高质量的使用。分层意义1、清晰数据结构：每一个数据分层都有它的作用域，这样我们在使用表的时候能更方便地定位和理解。数据关系条理化：源系统间存在复杂的数据关系，比如客户信息同时存在于核心系统、信贷系统、理财系统、资金系统，取数时该如何决策呢？数据仓库会对相同主题的数据进行统一建模，把复杂的数据关系梳理成条理清晰的数据模型，使用时就可避免上述问题了。2、数据血缘追踪：简单来讲可以这样理解

转载 2023-07-10 22:35:26 · 5325 阅读 · 1 评论
基础进阶ODS、DWD、DWM等模型分层与项目实战

问：还是不太明白 ods 和 dwd 层的区别，有了 ods 层后感觉 dwd 没有什么用了。答：嗯，我是这样理解的，站在一个理想的角度来讲，如果 ods 层的数据就非常规整，基本能满足我们绝大部分的需求，这当然是好的，这时候 dwd 层其实也没太大必要。但是现实中接触的情况是 ods 层的数据很难保证质量，毕竟数据的来源多种多样，推送方也会有自己的推送逻辑，在这种情况下，我们就需要通过额外的一层 dwd 来屏蔽一些底层的差异。

原创 2023-07-03 21:22:48 · 179 阅读 · 0 评论
数仓面试基础知识

将数据仓库分为不同的层级，可以根据用户的需求和权限将不同层级的数据暴露给用户，实现对数据的灵活访问和控制，同时确保敏感数据的安全性。数据仓库中的数据通常具有不同的生命周期，分层可以帮助对数据进行更好地管理和归档，确保数据的可用性和长期保存。数仓模型是用于构建数据仓库的一种模型，它是一种综合各种数据源，建立集成的、主题导向的、高度可扩展且用于分析和报告的数据架构。综上所述，数仓分层有助于提高数据管理和使用效率，权限控制，提升数据仓库的性能和扩展性，支持数据的生命周期管理。

原创 2023-07-03 21:08:58 · 418 阅读 · 0 评论
高逼格的 SQL 写法：行行比较

1、最后选择了行行比较这种方式来实现了需求别问我为什么，问就是逼格高！2、某一个需求的实现往往有很多种方式，我们需要结合业务以及各种约束综合考虑，选择最合适的那个3、行行比较是 SQL-92 中引入的，SQL-92 是 1992 年制定的规范行行比较不是新特性，而是很早就存在的基础功能！

原创 2023-06-18 07:06:20 · 173 阅读 · 0 评论
如何学习SQL多表查询

SQL Server 中常见的 JOIN 类型包括 INNER JOIN（内连接）、LEFT JOIN（左连接）、RIGHT JOIN（右连接）和FULL JOIN（全连接）。在今天的学习中，我们通过案例代码演示了不同类型的 JOIN 使用方法，帮助你更好地理解 JOIN 的应用场景和语法。3、RIGHT JOIN（右连接）：右连接返回右表中的所有行和左表中满足连接条件的行。4、FULL JOIN（全连接）：全连接返回左表和右表中的所有行，如果某个表中没有匹配的行，则返回 NULL 值。

原创 2023-06-12 22:34:12 · 118 阅读 · 0 评论
关于数据仓库与数据湖

数据仓库就是为了解决数据库不能解决的问题而提出的。那么数据库无法解决什么样的问题呢？这个我们得先说说什么是OLAP和OLTP。数据库的大规模应用，使得信息行业的数据爆炸式的增长，为了研究数据之间的关系，挖掘数据隐藏的价值，人们越来越多的需要使用OLAP来为决策者进行分析，探究一些深层次的关系和信息。但很显然，不同的数据库之间根本做不到数据共享，就算同一家数据库公司，数据库之间的集成也存在非常大的挑战（最主要的问题是庞大的数据如何有效合并、存储）。

原创 2023-03-08 19:43:36 · 653 阅读 · 0 评论
HIVE SQL lateral view 处理字段

1. 首先把ST_ENTP_TYPE_CD字段炸开。2. 把ST_ENTP_TYPE_CD字段替换。

原创 2023-02-11 09:19:14 · 302 阅读 · 0 评论
Hadoop、Spark等5种大数据框架对比

如果部署需求与当前系统不兼容，也许并不适合使用，但如果需要极低延迟的处理，或对严格的一次处理语义有较高需求，此时依然适合考虑。为此Spark可创建代表所需执行的全部操作，需要操作的数据，以及操作和数据之间关系的Directed Acyclic Graph（有向无环图），即DAG，借此处理器可以对任务进行更智能的协调。针对同一个数据执行同一个操作会或略其他因素产生相同的结果，此类处理非常适合流处理，因为不同项的状态通常是某些困难、限制，以及某些情况下不需要的结果的结合体。此类处理非常适合某些类型的工作负载。

原创 2023-02-06 23:10:15 · 489 阅读 · 0 评论
Spark性能优化指南——高级篇

有的时候，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜，此时Spark作业的性能会比期望差很多。数据倾斜调优，就是使用各种技术方案解决不同类型的数据倾斜问题，以保证Spark作业的性能。大多数Spark作业的性能主要就是消耗在了shuffle环节，因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此，如果要让作业的性能更上一层楼，就有必要对shuffle过程进行调优。

原创 2023-01-28 22:11:17 · 443 阅读 · 0 评论
Spark性能优化指南——基础篇

在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常广泛。大多数同学（包括笔者在内），最初开始尝试使用Spark的原因很简单，主要就是为了让大数据计算作业的执行速度更快、性能更高。然而，通过Spark开发出高性能的大数据计算作业，并不是那么简单的。

原创 2023-01-28 22:10:13 · 216 阅读 · 0 评论
Spark调优

由于大部分Spark计算都是在内存中完成的，所以SparkCPU、网络带宽、或者内存等。最常见的情况是，数据能装进内存，而瓶颈是网络带宽；当然，有时候我们也需要做一些优化调整来减少内存占用，例如将RDD以序列化格式保存。本文将主要涵盖两个主题：1.数据序列化（这对于优化网络性能极为重要）；2.减少内存占用以及内存调优。同时，我们也会提及其他几个比较小的主题。

原创 2023-01-28 22:08:22 · 249 阅读 · 0 评论
spark参数介绍

属性名默认值属性说明512m在客户端模式（）下，yarn应用master使用的内存数。在集群模式（）下，使用代替。1在集群模式（）下，driver程序使用的核数。在集群模式（）下，driver程序和master运行在同一个jvm中，所以master控制这个核数。在客户端模式（）下，使用控制master使用的核。1在客户端模式（）下，yarn应用的master使用的核数。在集群模式下，使用代替。100ms在集群模式（cluster mode）下，yarn应用master等待初始化的时间。

原创 2023-01-28 22:05:36 · 174 阅读 · 0 评论
基础进阶ODS、DWD、DWM等模型分层

问：还是不太明白 ods 和 dwd 层的区别，有了 ods 层后感觉 dwd 没有什么用了。答：嗯，我是这样理解的，站在一个理想的角度来讲，如果 ods 层的数据就非常规整，基本能满足我们绝大部分的需求，这当然是好的，这时候 dwd 层其实也没太大必要。但是现实中接触的情况是 ods 层的数据很难保证质量，毕竟数据的来源多种多样，推送方也会有自己的推送逻辑，在这种情况下，我们就需要通过额外的一层 dwd 来屏蔽一些底层的差异。

原创 2023-01-18 21:48:29 · 305 阅读 · 0 评论
pyspark基础函数

【代码】pyspark基础函数。

原创 2023-01-17 21:12:01 · 239 阅读 · 0 评论
Hive SQL优化思路分享

2、尽量不要用COUNT DISTINCT，因为COUNT DISTINCT操作需要用一个Reduce Task来完成，这一个Reduce需要处理的数据量太大，就会导致整个Job很难完成，一般COUNT DISTINCT使用先GROUP BY在COUNT的方式替换，虽然会多用一个Job来完成，但在数据量大的情况下，这个绝对是值得的。原因是在Join操作的Reduce阶段，位于Join操作符左边的表的内容会被加载进内存，将条目少的表放在左边，可以有效减少发生OOM错误的几率。select a.*

原创 2023-01-14 22:30:19 · 331 阅读 · 0 评论
HiveSQL中的JOIN ON条件

HiveSQL很常用的一个操作就是关联(Join)。Hive为用户提供了多种JOIN类型，可以满足不同的使用场景。但是，对于不同JOIN类型的语义，或许有些人对此不太清晰。简单的问题，往往是细节问题，而这些问题恰恰也是重要的问题。本文将围绕不同的JOIN类型，介绍JOIN的语义，并对每种JOIN类型需要注意的问题进行剖析，希望本文对你有所帮助。

原创 2022-11-26 13:14:57 · 1880 阅读 · 0 评论
数据仓库：详解维度建模之事实表

每个数据仓库都包含一个或者多个事实数据表。其中可能包含业务销售数据，如现金登记事务所产生的数据，通常包含大量的行。事实数据表的主要特点是包含数字数据（事实），并且这些数字信息可以汇总，以提供有关单位作为历史的数据，每个事实数据表包含一个由多个部分组成的索引，该索引包含作为外键的相关性维度表的主键，而维度表包含事实记录的特性。

原创 2022-10-26 20:05:32 · 233 阅读 · 0 评论
Pandas性能优化:进阶篇

在这里介绍一些更高级的pandas优化方法。

原创 2022-10-24 21:09:42 · 1215 阅读 · 0 评论
Pandas性能优化:基础篇

Pandas 号称“数据挖掘瑞士军刀”，是数据处理最常用的库。在数据挖掘或者kaggle比赛中，我们经常使用pandas进行数据提取、分析、构造特征。而如果数据量很大，操作算法复杂，那么pandas的运行速度可能非常慢。本文根据实际工作中的经验，总结了一些pandas的使用技巧，帮助提高运行速度或减少内存占用。

原创 2022-10-24 21:03:21 · 692 阅读 · 0 评论
数据分析落地全流程

问题场景：某大型售后连锁服务商，同时承接厂商、企业、个人的服务需求，由客服接需求以后生成工单，分配给自营的服务点或外包的服务商，上门完成服务。现在已定下，北极星指标是：实际完成工单件数，问：如何做进一步落地分析。

原创 2022-10-16 21:52:15 · 271 阅读 · 0 评论
数据思维的关键是什么？

如何提升员工的“数据思维”，让每一个人都能理解数据的价值和规律，甚至都具备数据分析的能力。即便是对于金融这样走在数字化前排的行业来说，也在受类似问题的困扰。和其它传统的实体行业不同的是，金融几乎就是一个基于数字的“游戏”。但是，拥有数据是一回事，能把数据价值释放出来又是另一回事。不少金融企业表示，虽然行业整体在平台建设和数据整合方面取得了可观进展，然而对于如何提高数据的利用率，真正释放数据要素价值，还有很多问题亟待解决——比如，内部员工如果不具备数据思维，就不能在日常开展业务的过程中把数据的价值纳入考虑范围

原创 2022-10-08 20:50:58 · 185 阅读 · 0 评论
SQL优化20招

一、查询SQL尽量不要使用select *，而是具体字段1、反例2、正例3、理由。

原创 2022-10-08 20:43:49 · 222 阅读 · 0 评论
9种最常用数据分析方法

用户路径分析追踪用户从某个开始事件直到结束事件的行为路径，即对用户流向进行监测，可以用来衡量网站优化的效果或营销推广的效果，以及了解用户行为偏好，其最终目的是达成业务目标，引导用户更高效地完成产品的最优路径，最终促使用户付费。比如一个商超进行产品分析的时候，就可以对每个商品的利润进行排序，找到前20%的产品，那这些产品就是能够带来较多价值的商品，可以再通过组合销售、降价销售等手段，进一步激发其带来的收益回报。分析业务数据，确定当前最关键的改进点，作出优化改进的假设，提出优化建议；

原创 2022-09-14 21:50:31 · 273 阅读 · 0 评论
快速掌握数据分析思路

这一份攻略，首先从梳理需求开始，对于下面几种情况进行了详细的讲解，并且针对五个基本问题类型，给出了解答思路。这些问题，都包含了销售、运营、产品的业务知识，如果不加以区分，很容易因为不了解业务动作，或者无法量化业务动作，导致而被问题困住，无法进一步用数据计算。如果是求职、职业发展类的问题，可能不太适合把个人隐私进行群体讨论，可以先看星球内求职专栏，然后加我的私信，一对一单独做诊断。这一份攻略，也清晰区分了数据问题和业务问题，对于下面情况进行详细介绍，并且给了5个现实中案例，带大家看清拆解思路。

原创 2022-09-01 22:27:13 · 405 阅读 · 0 评论
Inmon 范式建模与 Kimball 维度建模

建模方式没有好与坏之分，只有合适与不合适之分，在实际数仓建设中，需要灵活多变，不能全依赖建模理论，也不能不依赖。适时变通，才能建设一个好的数据仓库。

原创 2022-09-01 22:24:49 · 410 阅读 · 0 评论
Hadoop数仓知识小结

1. RDD的概念，就是说它会把一个比较大的数据集，然后分成很多个不同的部分，这叫分区。它就是如果有的计算节点失败了，它能够按照。计算的定义的那个计算图重新去构建它失败的那一部分，能够起到一个重视作用，也就是一个，能够保证这个计算的时候，能够在有问题的时候能够鼓掌恢复，然后还能够做这种分布式的计算。2. join的时候一定要看好join的类型：left join、right join、inner join以及左表右表的join字段名称，每join一个表就执行测试下，看看数据效果。

原创 2022-08-22 22:29:20 · 386 阅读 · 0 评论
数据分析的价值是什么？

还有一个很重要的，数据分析可以主动做的事，就是围绕目标，积累经验。业务部门处于本位考虑，经常是各自为各自项目摇旗呐喊，容易忽视不同项目之间交叉作用。比如用户流失问题，很有可能流失的用户本身是某些商品的粉丝，本身是季节性购物需求，他不会响应会员中心盲目派的券，而会响应商品部门推送的活动。此时数据部门，可以主动收集各部门活动，以用户为单位，展示各类活动影响用户全景，这种全景式的数据，业务站在自己部门很少看得到，很容易引发业务思考。因此特别建议数据部门，主动收集各类业务动作，围绕同一个业务目标综合起来。...

原创 2022-08-20 22:05:04 · 241 阅读 · 0 评论
数仓建模方法和数仓分层架构

星形模型是最简单，也是最常用的模型。星型架构是一种非正规化的结构，多维数据集的每一个维度都直接与事实表相连接，不存在渐变维度，所以数据有一定的冗余，如在地域维度表中，存在国家 A 省 B 的城市 C 以及国家 A 省 B 的城市 D 两条记录，那么国家 A 和省 B 的信息分别存储了两次，即存在冗余。建立核心模型与扩展模型体系，核心模型包括的宇段支持常用的核心业务，扩展模型包括的字段支持个性化或少量应用的需要，不能让扩展模型的宇段过度侵人核心模型，以免破坏核心模型的架构简洁性与可维护性。...

原创 2022-08-04 21:28:37 · 282 阅读 · 0 评论
构建指标体系

第二步指标体系化什么是指标体系：通过单点看全局，通过全局解决单点的问题，每个指标的含义不同，逻辑不同。

原创 2022-08-04 21:29:43 · 686 阅读 · 0 评论
HADOOP数据仓库

数仓特点面向主题：为数据分析提供服务，根据主题将原始数据集合在一起，属于OLAP在线分析处理系统，主要操作是批量读写，关注数据整合，以及分析、处理性能；会有意引入冗余，采用反范式方法设计...

原创 2022-08-04 21:15:21 · 561 阅读 · 0 评论
Hive性能调优实战

Hive性能调优多样性通过改写SQL优化，减少MR任务数需要理解基本的MR过程和原理，理解HiveSQL是如何转换成计算引擎能运行的算子多张表关联时，将关联条件相同的表放在一起，只会生成一个MR任务...

原创 2022-08-04 21:13:22 · 739 阅读 · 0 评论
Hive常用函数

数学函数round(double d, int n):返回保留n位小数的近似d值floor(double d): 返回小于d的最大整值ceil(double d): 返回大于d的最小整值rand(int seed): 返回随机数,seed是随机因子

原创 2022-08-04 21:01:17 · 172 阅读 · 0 评论
数据清洗的一些梳理

数据清洗，是整个数据分析过程中不可缺少的一个环节，其结果质量直接关系到模型效果和最终结论。在实际操作中，数据清洗通常会占据分析过程的50%—80%的时间。国外有些学术机构会专门研究如何做数据清洗，相关的书籍也不少。（美亚搜data cleaning的结果，可以看到这书还挺贵）我将在这篇文章中，尝试非常浅层次的梳理一下数据清洗过程，供各位参考。照例，先上图：预处理阶段预处理阶段主要做两件事情：一是将数据导入处理工具。通常来说，建议使用数据库，单机跑数搭建MySQL

原创 2021-07-25 06:54:40 · 494 阅读 · 0 评论

BigData

作者: 流动熵

《从月薪3千到年薪百万：顶级数据分析师绝密思维武器库》

Hivesql基础查询

如何做好业务理解

NLP总结

大数据面试真题_数据仓库

关于新一代票据业务系统最全介绍

数据仓库常用几种建模方法

数仓分层设计架构 详解-ODS-DWD-DWS-ADS

基础进阶ODS、DWD、DWM等模型分层与项目实战

数仓面试基础知识

高逼格的 SQL 写法：行行比较

如何学习SQL多表查询

关于数据仓库与数据湖

HIVE SQL lateral view 处理字段

Hadoop、Spark等5种大数据框架对比

Spark性能优化指南——高级篇

Spark性能优化指南——基础篇

Spark调优

spark参数介绍

基础进阶ODS、DWD、DWM等模型分层

pyspark基础函数

Hive SQL优化思路分享

HiveSQL中的JOIN ON条件

数据仓库：详解维度建模之事实表

Pandas性能优化:进阶篇

Pandas性能优化:基础篇

数据分析落地全流程

数据思维的关键是什么？

SQL优化20招

9种最常用数据分析方法

快速掌握数据分析思路

Inmon 范式建模与 Kimball 维度建模

Hadoop数仓知识小结

数据分析的价值是什么？

数仓建模方法和数仓分层架构

构建指标体系

HADOOP数据仓库

Hive性能调优实战

Hive常用函数

数据清洗的一些梳理

数仓分层设计架构详解-ODS-DWD-DWS-ADS