MetaTrade
时来天地皆同力,运去英雄不自由
展开
-
Hivesql基础查询
对题目进行分析,没有学全所有课程,也就是说该学生选修的课程数量小于总的课程数。第二步:将第一步中获取的课程编号作为条件,查询成绩表获取相关信息,并根据学生。第二步:将第一步中获取的课程编号作为条件,查询成绩表获取相关信息,并根据学生。第二步:将成绩表和学生表进行关联查询,关联字段为学生编号,并按照学生编号和姓。第一步:查询成绩表,按照学生编号分组,获取每一个学生的平均成绩。查询每门课程的平均成绩,结果按平均成绩升序排序,平均成绩相同时,按课程号。查询该学生不同课程的成绩相同的学生编号、课程编号、学生成绩。原创 2024-02-15 10:07:19 · 85 阅读 · 0 评论 -
如何做好业务理解
深入研究行业:以电子商务行业为例,你可以学习有关该行业的基本知识,如在线购物平台、数字支付系统、物流配送等。例如,你可以研究他们的电子商务平台是如何运作的,包括供应链管理、营销策略、用户界面等。例如,你需要了解什么是B2C(企业对消费者)、C2C(消费者对消费者)交易模式,以及常见的电子商务支付方式如支付宝、微信支付等。通过这样的交流,你可以借鉴他们的经验和见解,了解行业中的最佳实践和创新思路。例如,你可以研究其他类似的电子商务平台,了解他们的优势和特点。原创 2023-08-09 17:08:05 · 247 阅读 · 0 评论 -
NLP总结
当进行自然语言处理任务时,文本预处理是一个重要的步骤,它涉及到对文本数据进行清洗、规范化和转换,以便后续的NLP任务能够更好地进行。3. 停用词去除:停用词是指在文本中频繁出现但缺乏实际含义的单词,例如 "a"、"the"、"is" 等。基于深度学习的NLP模型:深入了解深度学习在NLP中的应用,包括循环神经网络(RNN)、长短时记忆(LSTM)、Transformer等模型。1. 文本清洗:这是预处理的第一步,目的是去除文本中的噪声和不必要的字符。这样可以避免对于大小写敏感的问题,并减少特征空间的大小。原创 2023-08-09 15:59:40 · 82 阅读 · 0 评论 -
大数据面试真题_数据仓库
1.维表和宽表(主要考察维表的使用及维度退化手法)原创 2023-08-01 11:41:42 · 1059 阅读 · 0 评论 -
关于新一代票据业务系统最全介绍
新一代票据业务系统,替代了之前两个系统的分割管理的状态,一方面继承和优化CPES系统功能规则,另一方面重构原来ECDS业务流程和习惯的功能规则,以创新思维导向和问题解决导向为亮点,面向全体市场参与主体和未来,搭建的一个统一处理票据全生命周期系统平台。而老系统中,票据样式包含票据正面和票据背面,且票据正面新老系统也有所变化。以下图为例,图示票据(包)的总金额为10000元,在新系统中,贴现人可以选择分包贴现,比如仅贴现900元,则企业只需在“交易金额”框中手动输入900元,即可完成分包贴现操作。原创 2023-07-28 11:59:49 · 752 阅读 · 0 评论 -
数据仓库常用几种建模方法
从笔者的经验来看,再没有现成的行业模型的情况下,我们可以采用实体建模的方法,和客户一起理清整个业务的模型,进行领域概念模型的划分,抽象出具体的业务概念,结合客户的使用特点,完全可以创建出一个符合自己需要的数据仓库模型来。因此,在整个数据仓库的模型的设计和架构中,既涉及到业务知识,也涉及到了具体的技术,我们既需要了解丰富的行业经验,同时,也需要一定的信息技术来帮助我们实现我们的数据模型,最重要的是,我们还需要一个非常适用的方法论,来指导我们自己针对我们的业务进行抽象,处理,生成各个阶段的模型。转载 2023-07-10 22:36:26 · 393 阅读 · 0 评论 -
数仓分层设计架构 详解-ODS-DWD-DWS-ADS
一、数仓建模的意义,为什么要对数据仓库分层?只有数据模型将数据有序的组织和存储起来之后,大数据才能得到高性能、低成本、高效率、高质量的使用。分层意义1、清晰数据结构:每一个数据分层都有它的作用域,这样我们在使用表的时候能更方便地定位和理解。数据关系条理化:源系统间存在复杂的数据关系,比如客户信息同时存在于核心系统、信贷系统、理财系统、资金系统,取数时该如何决策呢?数据仓库会对相同主题的数据进行统一建模,把复杂的数据关系梳理成条理清晰的数据模型,使用时就可避免上述问题了。2、数据血缘追踪:简单来讲可以这样理解转载 2023-07-10 22:35:26 · 3644 阅读 · 1 评论 -
基础进阶ODS、DWD、DWM等模型分层与项目实战
问:还是不太明白 ods 和 dwd 层的区别,有了 ods 层后感觉 dwd 没有什么用了。答:嗯,我是这样理解的,站在一个理想的角度来讲,如果 ods 层的数据就非常规整,基本能满足我们绝大部分的需求,这当然是好的,这时候 dwd 层其实也没太大必要。但是现实中接触的情况是 ods 层的数据很难保证质量,毕竟数据的来源多种多样,推送方也会有自己的推送逻辑,在这种情况下,我们就需要通过额外的一层 dwd 来屏蔽一些底层的差异。原创 2023-07-03 21:22:48 · 119 阅读 · 0 评论 -
数仓面试基础知识
将数据仓库分为不同的层级,可以根据用户的需求和权限将不同层级的数据暴露给用户,实现对数据的灵活访问和控制,同时确保敏感数据的安全性。数据仓库中的数据通常具有不同的生命周期,分层可以帮助对数据进行更好地管理和归档,确保数据的可用性和长期保存。数仓模型是用于构建数据仓库的一种模型,它是一种综合各种数据源,建立集成的、主题导向的、高度可扩展且用于分析和报告的数据架构。综上所述,数仓分层有助于提高数据管理和使用效率,权限控制,提升数据仓库的性能和扩展性,支持数据的生命周期管理。原创 2023-07-03 21:08:58 · 319 阅读 · 0 评论 -
高逼格的 SQL 写法:行行比较
1、最后选择了 行行比较 这种方式来实现了需求别问我为什么,问就是逼格高!2、某一个需求的实现往往有很多种方式,我们需要结合业务以及各种约束综合考虑,选择最合适的那个3、行行比较是 SQL-92 中引入的,SQL-92 是 1992 年制定的规范行行比较不是新特性,而是很早就存在的基础功能!原创 2023-06-18 07:06:20 · 107 阅读 · 0 评论 -
如何学习SQL多表查询
SQL Server 中常见的 JOIN 类型包括 INNER JOIN(内连接)、LEFT JOIN(左连接)、RIGHT JOIN(右连接)和FULL JOIN(全连接)。在今天的学习中,我们通过案例代码演示了不同类型的 JOIN 使用方法,帮助你更好地理解 JOIN 的应用场景和语法。3、RIGHT JOIN(右连接):右连接返回右表中的所有行和左表中满足连接条件的行。4、FULL JOIN(全连接):全连接返回左表和右表中的所有行,如果某个表中没有匹配的行,则返回 NULL 值。原创 2023-06-12 22:34:12 · 58 阅读 · 0 评论 -
关于数据仓库与数据湖
数据仓库就是为了解决数据库不能解决的问题而提出的。那么数据库无法解决什么样的问题呢?这个我们得先说说什么是OLAP和OLTP。数据库的大规模应用,使得信息行业的数据爆炸式的增长,为了研究数据之间的关系,挖掘数据隐藏的价值,人们越来越多的需要使用OLAP来为决策者进行分析,探究一些深层次的关系和信息。但很显然,不同的数据库之间根本做不到数据共享,就算同一家数据库公司,数据库之间的集成也存在非常大的挑战(最主要的问题是庞大的数据如何有效合并、存储)。原创 2023-03-08 19:43:36 · 590 阅读 · 0 评论 -
HIVE SQL lateral view 处理字段
1. 首先把ST_ENTP_TYPE_CD字段炸开。2. 把ST_ENTP_TYPE_CD字段替换。原创 2023-02-11 09:19:14 · 225 阅读 · 0 评论 -
Hadoop、Spark等5种大数据框架对比
如果部署需求与当前系统不兼容,也许并不适合使用,但如果需要极低延迟的处理,或对严格的一次处理语义有较高需求,此时依然适合考虑。为此Spark可创建代表所需执行的全部操作,需要操作的数据,以及操作和数据之间关系的Directed Acyclic Graph(有向无环图),即DAG,借此处理器可以对任务进行更智能的协调。针对同一个数据执行同一个操作会或略其他因素产生相同的结果,此类处理非常适合流处理,因为不同项的状态通常是某些困难、限制,以及某些情况下不需要的结果的结合体。此类处理非常适合某些类型的工作负载。原创 2023-02-06 23:10:15 · 369 阅读 · 0 评论 -
Spark性能优化指南——高级篇
有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。大多数Spark作业的性能主要就是消耗在了shuffle环节,因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此,如果要让作业的性能更上一层楼,就有必要对shuffle过程进行调优。原创 2023-01-28 22:11:17 · 369 阅读 · 0 评论 -
Spark性能优化指南——基础篇
在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。大多数同学(包括笔者在内),最初开始尝试使用Spark的原因很简单,主要就是为了让大数据计算作业的执行速度更快、性能更高。然而,通过Spark开发出高性能的大数据计算作业,并不是那么简单的。原创 2023-01-28 22:10:13 · 139 阅读 · 0 评论 -
Spark调优
由于大部分Spark计算都是在内存中完成的,所以SparkCPU、网络带宽、或者内存等。最常见的情况是,数据能装进内存,而瓶颈是网络带宽;当然,有时候我们也需要做一些优化调整来减少内存占用,例如将RDD以序列化格式保存。本文将主要涵盖两个主题:1.数据序列化(这对于优化网络性能极为重要);2.减少内存占用以及内存调优。同时,我们也会提及其他几个比较小的主题。原创 2023-01-28 22:08:22 · 157 阅读 · 0 评论 -
spark参数介绍
属性名默认值属性说明512m在客户端模式()下,yarn应用master使用的内存数。在集群模式()下,使用代替。1在集群模式()下,driver程序使用的核数。在集群模式()下,driver程序和master运行在同一个jvm中,所以master控制这个核数。在客户端模式()下,使用控制master使用的核。1在客户端模式()下,yarn应用的master使用的核数。在集群模式下,使用代替。100ms在集群模式(cluster mode)下,yarn应用master等待初始化的时间。原创 2023-01-28 22:05:36 · 104 阅读 · 0 评论 -
基础进阶ODS、DWD、DWM等模型分层
问:还是不太明白 ods 和 dwd 层的区别,有了 ods 层后感觉 dwd 没有什么用了。答:嗯,我是这样理解的,站在一个理想的角度来讲,如果 ods 层的数据就非常规整,基本能满足我们绝大部分的需求,这当然是好的,这时候 dwd 层其实也没太大必要。但是现实中接触的情况是 ods 层的数据很难保证质量,毕竟数据的来源多种多样,推送方也会有自己的推送逻辑,在这种情况下,我们就需要通过额外的一层 dwd 来屏蔽一些底层的差异。原创 2023-01-18 21:48:29 · 197 阅读 · 0 评论 -
pyspark基础函数
【代码】pyspark基础函数。原创 2023-01-17 21:12:01 · 178 阅读 · 0 评论 -
Hive SQL优化思路分享
2、尽量不要用COUNT DISTINCT,因为COUNT DISTINCT操作需要用一个Reduce Task来完成,这一个Reduce需要处理的数据量太大,就会导致整个Job很难完成,一般COUNT DISTINCT使用先GROUP BY在COUNT的方式替换,虽然会多用一个Job来完成,但在数据量大的情况下,这个绝对是值得的。原因是在Join操作的Reduce阶段,位于Join操作符左边的表的内容会被加载进内存,将条目少的表放在左边,可以有效减少发生OOM错误的几率。select a.*原创 2023-01-14 22:30:19 · 248 阅读 · 0 评论 -
HiveSQL中的JOIN ON条件
HiveSQL很常用的一个操作就是关联(Join)。Hive为用户提供了多种JOIN类型,可以满足不同的使用场景。但是,对于不同JOIN类型的语义,或许有些人对此不太清晰。简单的问题,往往是细节问题,而这些问题恰恰也是重要的问题。本文将围绕不同的JOIN类型,介绍JOIN的语义,并对每种JOIN类型需要注意的问题进行剖析,希望本文对你有所帮助。原创 2022-11-26 13:14:57 · 1737 阅读 · 0 评论 -
数据仓库:详解维度建模之事实表
每个数据仓库都包含一个或者多个事实数据表。其中可能包含业务销售数据,如现金登记事务所产生的数据,通常包含大量的行。事实数据表的主要特点是包含数字数据(事实),并且这些数字信息可以汇总,以提供有关单位作为历史的数据,每个事实数据表包含一个由多个部分组成的索引,该索引包含作为外键的相关性维度表的主键,而维度表包含事实记录的特性。原创 2022-10-26 20:05:32 · 155 阅读 · 0 评论 -
Pandas性能优化:进阶篇
在这里介绍一些更高级的pandas优化方法。原创 2022-10-24 21:09:42 · 1086 阅读 · 0 评论 -
Pandas性能优化:基础篇
Pandas 号称“数据挖掘瑞士军刀”,是数据处理最常用的库。在数据挖掘或者kaggle比赛中,我们经常使用pandas进行数据提取、分析、构造特征。而如果数据量很大,操作算法复杂,那么pandas的运行速度可能非常慢。本文根据实际工作中的经验,总结了一些pandas的使用技巧,帮助提高运行速度或减少内存占用。原创 2022-10-24 21:03:21 · 586 阅读 · 0 评论 -
数据分析落地全流程
问题场景:某大型售后连锁服务商,同时承接厂商、企业、个人的服务需求,由客服接需求以后生成工单,分配给自营的服务点或外包的服务商,上门完成服务。现在已定下,北极星指标是:实际完成工单件数,问:如何做进一步落地分析。原创 2022-10-16 21:52:15 · 179 阅读 · 0 评论 -
数据思维的关键是什么?
如何提升员工的“数据思维”,让每一个人都能理解数据的价值和规律,甚至都具备数据分析的能力。即便是对于金融这样走在数字化前排的行业来说,也在受类似问题的困扰。和其它传统的实体行业不同的是,金融几乎就是一个基于数字的“游戏”。但是,拥有数据是一回事,能把数据价值释放出来又是另一回事。不少金融企业表示,虽然行业整体在平台建设和数据整合方面取得了可观进展,然而对于如何提高数据的利用率,真正释放数据要素价值,还有很多问题亟待解决——比如,内部员工如果不具备数据思维,就不能在日常开展业务的过程中把数据的价值纳入考虑范围原创 2022-10-08 20:50:58 · 121 阅读 · 0 评论 -
SQL优化20招
一、查询SQL尽量不要使用select *,而是具体字段1、反例2、正例3、理由。原创 2022-10-08 20:43:49 · 158 阅读 · 0 评论 -
9种最常用数据分析方法
用户路径分析追踪用户从某个开始事件直到结束事件的行为路径,即对用户流向进行监测,可以用来衡量网站优化的效果或营销推广的效果,以及了解用户行为偏好,其最终目的是达成业务目标,引导用户更高效地完成产品的最优路径,最终促使用户付费。比如一个商超进行产品分析的时候,就可以对每个商品的利润进行排序,找到前20%的产品,那这些产品就是能够带来较多价值的商品,可以再通过组合销售、降价销售等手段,进一步激发其带来的收益回报。分析业务数据,确定当前最关键的改进点,作出优化改进的假设,提出优化建议;原创 2022-09-14 21:50:31 · 170 阅读 · 0 评论 -
快速掌握数据分析思路
这一份攻略,首先从梳理需求开始,对于下面几种情况进行了详细的讲解,并且针对五个基本问题类型,给出了解答思路。这些问题,都包含了销售、运营、产品的业务知识,如果不加以区分,很容易因为不了解业务动作,或者无法量化业务动作,导致而被问题困住,无法进一步用数据计算。如果是求职、职业发展类的问题,可能不太适合把个人隐私进行群体讨论,可以先看星球内求职专栏,然后加我的私信,一对一单独做诊断。这一份攻略,也清晰区分了数据问题和业务问题,对于下面情况进行详细介绍,并且给了5个现实中案例,带大家看清拆解思路。原创 2022-09-01 22:27:13 · 322 阅读 · 0 评论 -
Inmon 范式建模与 Kimball 维度建模
建模方式没有好与坏之分,只有合适与不合适之分,在实际数仓建设中,需要灵活多变,不能全依赖建模理论,也不能不依赖。适时变通,才能建设一个好的数据仓库。原创 2022-09-01 22:24:49 · 273 阅读 · 0 评论 -
Hadoop数仓知识小结
1. RDD的概念,就是说它会把一个比较大的数据集,然后分成很多个不同的部分,这叫分区。它就是如果有的计算节点失败了,它能够按照。计算的定义的那个计算图重新去构建它失败的那一部分,能够起到一个重视作用,也就是一个,能够保证这个计算的时候,能够在有问题的时候能够鼓掌恢复,然后还能够做这种分布式的计算。2. join的时候一定要看好join的类型:left join、right join、inner join以及左表右表的join字段名称,每join一个表就执行测试下,看看数据效果。原创 2022-08-22 22:29:20 · 330 阅读 · 0 评论 -
数据分析的价值是什么?
还有一个很重要的,数据分析可以主动做的事,就是围绕目标,积累经验。业务部门处于本位考虑,经常是各自为各自项目摇旗呐喊,容易忽视不同项目之间交叉作用。比如用户流失问题,很有可能流失的用户本身是某些商品的粉丝,本身是季节性购物需求,他不会响应会员中心盲目派的券,而会响应商品部门推送的活动。此时数据部门,可以主动收集各部门活动,以用户为单位,展示各类活动影响用户全景,这种全景式的数据,业务站在自己部门很少看得到,很容易引发业务思考。因此特别建议数据部门,主动收集各类业务动作,围绕同一个业务目标综合起来。...原创 2022-08-20 22:05:04 · 157 阅读 · 0 评论 -
数仓建模方法和数仓分层架构
星形模型是最简单,也是最常用的模型。星型架构是一种非正规化的结构,多维数据集的每一个维度都直接与事实表相连接,不存在渐变维度,所以数据有一定的冗余,如在地域维度表中,存在国家 A 省 B 的城市 C 以及国家 A 省 B 的城市 D 两条记录,那么国家 A 和省 B 的信息分别存储了两次,即存在冗余。建立核心模型与扩展模型体系,核心模型包括的宇段支持常用的核心业务,扩展模型包括的字段支持个性化或少量应用的需要 ,不能让扩展模型的宇段过度侵人核心模型,以免破坏核心模型的架构简洁性与可维护性。...原创 2022-08-04 21:28:37 · 220 阅读 · 0 评论 -
构建指标体系
第二步指标体系化什么是指标体系:通过单点看全局,通过全局解决单点的问题,每个指标的含义不同,逻辑不同。原创 2022-08-04 21:29:43 · 487 阅读 · 0 评论 -
HADOOP数据仓库
数仓特点面向主题:为数据分析提供服务,根据主题将原始数据集合在一起,属于OLAP在线分析处理系统,主要操作是批量读写,关注数据整合,以及分析、处理性能;会有意引入冗余,采用反范式方法设计...原创 2022-08-04 21:15:21 · 502 阅读 · 0 评论 -
Hive性能调优实战
Hive性能调优多样性通过改写SQL优化,减少MR任务数需要理解基本的MR过程和原理,理解HiveSQL是如何转换成计算引擎能运行的算子多张表关联时,将关联条件相同的表放在一起,只会生成一个MR任务...原创 2022-08-04 21:13:22 · 629 阅读 · 0 评论 -
Hive常用函数
数学函数round(double d, int n):返回保留n位小数的近似d值floor(double d): 返回小于d的最大整值ceil(double d): 返回大于d的最小整值rand(int seed): 返回随机数,seed是随机因子原创 2022-08-04 21:01:17 · 114 阅读 · 0 评论 -
数据清洗的一些梳理
数据清洗, 是整个数据分析过程中不可缺少的一个环节,其结果质量直接关系到模型效果和最终结论。在实际操作中,数据清洗通常会占据分析过程的50%—80%的时间。国外有些学术机构会专门研究如何做数据清洗,相关的书籍也不少。(美亚搜data cleaning的结果,可以看到这书还挺贵)我将在这篇文章中,尝试非常浅层次的梳理一下数据清洗过程,供各位参考。照例,先上图:预处理阶段预处理阶段主要做两件事情:一是将数据导入处理工具。通常来说,建议使用数据库,单机跑数搭建MySQL原创 2021-07-25 06:54:40 · 405 阅读 · 0 评论 -
互联网公司在面试数据分析师的工作时具体会被问什么样的问题?
从面试开始到结束的3个阶段详细聊聊面试中常见的问题以及如何回答准备。这3个阶段分别是:第1阶段:面试开始,逃不掉的自我介绍第2阶段:考察能力的技术问题第3阶段:面试结束时的问题最后,我们聊聊面试当天要注意什么,以及面试失败以后怎么办一、逃不掉的自我介绍首先,面试的开头就是自我介绍。通常面试官也会根据你的自我介绍来展开问后面的问题。比如你在自我介绍种说了一个项目,那面试官就问这个项目的细节,比如你用了什么技术,如何实现某个功能的等等。通过项目的细节来考察你某个方面的能力,因此,自我原创 2021-07-27 08:22:05 · 259 阅读 · 0 评论