自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(136)
  • 收藏
  • 关注

原创 数仓建模—数仓建设概论

数据仓库是一个针对企业数据进行集成、存储、管理和分析的数据库系统,通常用于支持企业的业务决策和数据分析。数据仓库主要用于处理来自不同数据来源的大量数据,并将其转化为有用的信息和洞察。数据仓库与企业的操作系统数据库不同,数据仓库的设计目的是为了支持数据分析的需求而不是交易处理。数据仓库对企业的意义和作用是不可忽视的。数据仓库能够在短时间内提供高质量的数据支持,帮助企业制定更明智的决策,优化业务过程,促进企业战略目标的实现。

2024-05-19 08:45:39 361

原创 数仓建模—什么是数据中台

数据中台被誉为大数据的下一站,由阿里兴起,核心思想是数据共享。如今似乎人人都在提数据中台,但却不是所有人都清楚数据中台到底意味着什么。要回答数据中台是什么,首先要探讨一下中台到底是什么。中台,通过对业务、数据和技术的抽象,对服务能力进行复用,构建了企业级的服务能力,消除了企业内部各业务部门、各分子公司之间的壁垒,适应了企业特别是大型企业集团业务多元化的发展战略。基于中台,可快速构建面向最终消费者和客户的前台应用,从而满足各种个性化特征的前台需求,为企业的数字化转型提供明确的道路。

2024-05-18 08:58:44 7

原创 数仓建模—企业数字化建设

信息化是数字化的基础,数字化是信息化的高阶阶段。信息化解决的是效率问题,而数字化则是业务价值导向,也就是通常说的给业务赋能。数字化必定包含信息化且不能否定信息化,同时数字化转型一定要返回到业务本身,因为数字化转型本质上是业务问题,其与信息化又彼此关联、彼此驱动。

2024-05-17 08:30:23 193

原创 数仓建模—数据报表体系搭建

前面说到了指标要与实际业务对应,这样才有意义,这点对于业务数据来说同样如此,因为不同企业信息化建设程度不同,有些刚刚建设完数据规范,有些已经完成部署了业务系统软件,有些更是搭建了商业智能BI,这就导致业务活动中储存的数据并不相同,可能在Excel表格里,业务系统数据库或者统一的数据仓库里。在很多已经具备数据报表分析能力的企业中,我们经常能看到这种现象,明明已经有大量报表制作完成,但还是不断的有临时性的报表需求,忙完了回来一看,一堆做完的报表别人动也没动过,还有很多只有开会用一次就再也没用了。

2024-05-14 08:17:51 374

原创 数仓建模—增量数据处理

数据同步方案可以参考以前的文章永远从业务的角度出发去理解问题,尤其是遇到不合理的,不用着急从技术上去寻找解决方案。

2024-05-13 10:42:00 262

原创 数仓建模—数字化运营

数字化运营比一般的业务运营更加加入和利用了数据、数字化技术手段,为企业的业务战略和决策提供了更加精细化的、可量化的、科学的数据支撑,从而有效的提升业务效率和管理效率,更好、更快、更优的达到企业经营和运营目标。从企业高层管理的角度可以非常方便的通过数据一看到底,不同的业务板块、业务条线的业务,不同的组织、部门的业务效率,一线的业务实际情况等等,想看就看,一看到底。更加深入的数据驱动、更加高效的协同配合、更加精细化的一看到底来支撑更加准确的科学决策,这就是数字化运营在传统的业务运营基础上加入的数字化的元素。

2024-05-12 09:43:09 699

原创 数仓建模—血缘分析

数据血缘,又称数据血统、数据起源、数据谱系,是指数据的全生命周期中,数据从产生、处理、加工、融合、流转到最终消亡,数据之间自然形成一种关系。其记录了数据产生的链路关系,这些关系与人类的血缘关系比较相似,所以被成为数据血缘关系。比如,数据A经过ETL处理生成了数据B,那么我们就说数据A与B有着血缘关系,且数据A是数据B的上游数据,同时数据B是数据A的下游数据。按血缘对象来分,可分为系统级血缘、表级血缘、字段(列)级血缘。不管是结构化数据还是非结构化数据,都必定存在数据血缘关系。

2024-05-11 09:55:10 20

原创 数仓建模—主题域和主题

主题是一个抽象概念,描述的是领域类型的分析,涉及到众多对象,主题的概念下,描述对象或者是与之相关的对象都在这一主题下,数据相对来说比较完整。数据集市在一定程度上是为了解决主题的分析问题,这主要使用者的组织架构考虑的,例如销售部门对销售主题的数据进行分析,财务部门对财务主题的数据分析主题下涉及到的实体一定归属于某个数据域,所以可以看到数据域这个概念更加偏向数仓内部管理,数据域强调的是数据的归属,而主题强调的是数据的使用,所以一个实体一定只属于一个数据域,但是很大程度用于多个主题。

2024-05-11 09:53:30 7

原创 数仓建模—美团数据质量监管平台实践

数据质量是数据治理建设的重要一环,与元数据管理、数据标准化及数据服务管理等共同构建了数据治理的体系框架。监控数据资产质量状态,为优化数据平台和数据仓库性能、合理配置数据存储资源提供决策支持;持续推动数据质量监控优化预警、实时监控的机制;重点优先监控关键核心数据资产,管控优化20%核心资源,可提升80%需求应用性能;规范了问题故障的跟踪、Review、优化方案。从数据中提炼价值,从方案中形成标准化的知识体系;由技术检测到业务监督,形成闭环工作流机制,提高整体数据质量,全面提升服务业务水平。

2024-05-09 09:01:49 204

原创 数据平台—邮件服务

数据平台一个比较常见的场景就是将每天的汇总数据通过邮件的形式发送出去,所以我们需要一个比较通用的邮件服务主要实现的功能是通过提供一段SQL, 将该SQL 获取的数据通过邮件的形式进行发送。主要包含两个模块,第一个是邮件模块,第二个是获取数据模块。

2024-05-08 11:45:52 530

原创 数仓建模—IOTA架构

IOTA大数据架构是一种基于AI生态下的全新的数据架构模式,2018年,易观首次提出这一概念。IOTA的整体思路是设定标准数据模型,通过边缘计算技术把所有的计算过程分散在数据产生、计算和查询过程当中,以统一的数据模型贯穿始终,从而提高整体的计算效率,同时满足计算的需要,可以使用各种Ad-hoc Query来查询底层数据。

2024-05-07 07:08:59 298

原创 数仓建模—数据水印

数据水印是指从原始环境向目标环境进行数据交换时,通过一定的方法向数据中植入水印标记,从而使数据具有可识别分发者、分发对象、分发时间、分发目的等因素,同时保留目标环境业务所需的数据特性或内容的数据处理过程。数据水印系统是一款针对数据文件中的敏感数据进行高级别仿真水印标识的数据安全产品,广泛应用于内外部数据共享交换等场景,解决数据扩散后泄漏主体不明确、无法追溯等难题。随着数字化转型的深入推进,企业内部大量数据在频繁交互,同时企业间有大量的数据共享、交换的需求。

2024-05-07 07:06:56 14

原创 ollama 运行第三方模型

本质上是通过GGUF 来创建ollama可执行的模型文件。

2024-05-06 19:22:12 71

原创 数仓建模—数据仓库即服务

DWaaS 数据仓库即服务,可以在一定程度上解决小企业数字化改革的问题,降低了入局门槛DWaaS 通过服务的方式解决和很多小企业面临的问题,但是也有新的问题被引入,所以还需要更加优秀DWaaS提供商提供更加完善的方案DWaaS 对客户和提供商是服务和被服务的关系,其实很多企业已经有了自己的数据仓库,但是对业务的价值有多大可能无从考证,这也为我们提供了一个思路,那就是我们也要在企业内部做DWaaS,但是这个时候更多的可能是数据服务这一块的。

2024-05-06 08:54:09 181

原创 数仓建模—数据安全平台建设实践

以上模型比较适用于应用类型产品的权限管控,而数据类型的产品对信息安全的要求更高,而且各类资源间的关系也更复杂,使用传统的模型难以将内部关系进行清晰的表达,所以我们在RBAC权限模型的基础上,扩展设计了新的权限模型。早期的数据安全产品大多使用传统的权限模型,只能实现功能级权限管控,无法进行数据级权限管控。为此,美团用户平台应用研发组不仅设计了能表达和管控各种复杂关系的权限模型,还针对事前、事中、事后等三个场景,分别设计了审批、权限、审计三个子系统以保障数据安全的完整闭环,进而满足数据安全的各种要求。

2024-05-06 08:53:13 357

原创 数仓建模—用户旅程地图

UJM 即用户旅程地图,也称作用户生命周期旅程,也就是说如果我们把最后用户付费或者是传播作为最终的目标,那么我们希望用户在平台上的生命周期都能走到付费的这一步。UJM 模型里面有AARRR模型的身影,但是UJM 是站在用户角度去考虑问题的而AARRR是站在企业角度去考虑的,虽有重叠但是本质不同。OSM能够促使我们去思考产品的重要目标,UJM能够然我们去站在用户角度思考产品UJM所挖掘的痛点和机会点,也可以反哺OSM中的目标和策略。

2024-05-05 09:20:16 185

原创 数仓建模—数据治理的本质及实践

我们认为,数据治理是指从使用零散数据变为使用统一数据、从具有很少或没有组织流程到企业范围内的综合数据管控、从数据混乱状况到数据井井有条的一个过程。所以,数据治理强调的是一个过程,是一个从混乱到有序的过程。从范围来讲,数据治理涵盖了从前端业务系统、后端业务数据库再到业务终端的数据分析,从源头到终端再回到源头,形成的一个闭环负反馈系统。从目的来讲,数据治理就是要对数据的获取、处理和使用进行监督管理。

2024-05-05 09:18:23 12

原创 数仓建模—主数据管理

在2018年中国信通院牵头编写的《主数据管理实践白皮书(1.0版)》中,主数据定义的概念如下:“指满足跨部门业务协同需要的、反映核心业务实体状态属性的组织机构的基础信息。主数据相对于交易数据而言,属性更加稳定,准确度要求更高,唯一识别。企业主数据指企业内一致并共享的业务主体,如图所示,是各个系统(包括操作型系统、事务型应用系统、分析型系统)间一致并共享的数据;是用来描述核心业务的实体,例如员工、组织机构、客户、供应商、会计科目等相关数据。主数据管理与元数据管理相辅相成。

2024-05-05 09:17:01 16

原创 WizardLM-2 重磅来袭 快速尝鲜

微软最近推出了 WizardLM 2,这是一个突破性的大型语言模型系列,突破了人工智能的界限。这些模型展示了复杂聊天、多语言理解、推理和代理功能方面的显着改进,超越了其前身 WizardLM 和其他领先的开源模型。

2024-05-03 09:16:50 37

原创 ChatGPT使用案例之微信机器人

到这里我们的微信ChatGPT机器人就做完了,主要是用的是chatgpt_wechat_robot这个开源项目,有两个问题需要注意一下注意使用的模型,我们可以使用gpt-3.5-turbo,更划算注意我们的prompt 会一直变大,其实我们之前写代码的时候介绍过处理方案的,例如我们可以只要过去三条对话。

2024-05-03 09:14:21 117

原创 ChatGPT使用案例之简单机器人

到这里我们的ChatGPT使用案例之简单机器人就介绍完了,不过里面遗留了了一些问题就是tocken 的问题,可能会导致我们的会话失败就是目前机器人还是代码形式,不能分享,不能让很多人来使用。

2024-05-03 09:13:22 27

原创 ChatGPT使用案例之操作Excel

我们操作Excel 的本质依然是生成代码,同理我们可以去操作PPT 或者是Word ,当然如果能使用Microsoft 365 Copilot那就更加方便了,当然目前我们已经可以使用ChatGPT 来帮我们解决这一类的工作。

2024-05-03 09:12:29 2

原创 ChatGPT使用案例之图像生成

到这里我们关于ChatGPT生成图像就已经介绍完了,可以看到的是只是有这个功能,还不够强大,目前只支持下面三种形式基于文本提示从头开始创建图像基于新的文本提示创建对现有图像的编辑创建现有图像的变体如果不满足需求,可以让ChatGPT 生成prompt,然后通过midjourney根据prompt生成。

2024-05-03 09:11:45 23

原创 ChatGPT使用案例之自然语言处理

这一节我们主要使用ChatGPT尝试了一些自然语言处理相关的内容,当然例子都很简单,而且关于自然语言处理还是有很多其他场景的,我们也没有一一演示。当我们的基础使用案例演示完了,我们就可以尝试使用ChatGPT做一些高阶使用了。

2024-05-03 09:10:40 14

原创 ChatGPT使用案例之画思维导图

今天我们介绍的关于ChatGPT 生成思维导图就到这里了,下一节我们介绍ChatGPT做活动策划和做PPT我们使用ChatGPT生成思维导图主要是让ChatGPT生成思维导图的内容,让使用markmap 来生成最后的图!

2024-05-03 09:09:49 17

原创 ChatGPT使用案例之生成PPT

我们介绍了两种PPT 生成的方式,这两种方式的内容都是通过ChatGPT 生成的使用PPT 软件提供的大纲功能来生成使用mindshow来生成个人觉得mindshow使用起来更方便,毕竟少了一个步骤,而且生成的效果更好ChatGPT归根结底只能作为一种工具来使用,为我们提供创意源泉,我们不能完全依赖它来为我们提供全部内容,而是借助它来提高我们的工作效率。

2024-05-03 09:08:55 26

原创 ChatGP使用案例之写文章

作为一个基于大型语言处理模型的文字聊天工具,ChatGPT能够帮助用户围绕特定的主题生成各种创意性文字内容,为用户提供创意来源。但是我们不能完全依赖ChatGPT的生成内容,我们也要对生成的文字进行检查,目前ChatGPT只能当作一个素材的来源。

2024-05-03 09:08:15 19

原创 ChatGPT使用案例之写代码

这一节我们主要尝试使用ChatGPT去给我们写代码,可以看到常见的代码它得确能帮我们写出来,但是很多时候可能或多或少是有点问题的,这个时候我们可以尝试改变我们的prompt 引导ChatGPT 产生一个正确的结果。后面我们继续尝试ChatGPT 的其他场景,以达到解放我们的生产力的目的,虽然有时候写出的代码可能存在bug,但是只要我们稍加调整即可,而且对于ChatGPT而言它不像我们,它擅长各种编程语言。

2024-05-03 09:07:11 14

原创 数仓建模—数据驱动业务

企业达成目标KPI的过程中,需要将其细分到不同领域的业务场景中完成,比如针对老客户拉新的业务场景,企业会设计一个具备吸引力的运营策略,然后通过一些列的运营动作让更多人了解老邀新的机制,并使用户产生信任感愿意参与其中,从而触发后续的运营动作。企业数据分析不仅要分析异常原因和评估迭代效果,还要根据数据为企业找到业务突破点,企业首先要明确业务的增长目标,然后再聚焦目标做全方位的诊断分析,从中找到解决方案或思路,进行优化迭代,然后开发上线,最后最后评估效果,优化方案形成闭环。

2024-05-03 08:58:21 22

原创 数仓建模—数据领域常见概念

我有意识地分开了这三种角色,希望能够帮助大家了解到其中的差别。当然,我并不是说做BI和数据挖掘的不会做洞察,也不是说一定要通过转岗,事实上,很多公司里并没有数据洞察的岗位。更多我想告诉大家的是,如何将数据、信息转化为洞察,才是大幅增值的一个关键。未来的时代,数据将普及到各个角落,但对数据的应用却是千差万别的。我不否认数据科学家和大神的存在,能做出Alphago是很了不起的事。但。

2024-05-03 08:56:37 14

原创 数仓建模—美团DB数据同步到数据仓库的架构与实践

作为数据仓库生产的基础,美团数据平台提供的基于Binlog的MySQL2Hive服务,基本覆盖了美团内部的各个业务线,目前已经能够满足绝大部分业务的数据同步需求,实现DB数据准确、高效地入仓。在后面的发展中,我们会集中解决CanalManager的单点问题,并构建跨机房容灾的架构,从而更加稳定地支撑业务的发展。本文主要从Binlog流式采集和基于Binlog的ODS数据还原两方面,介绍了这一服务的架构,并介绍了我们在实践中遇到的一些典型问题和解决方案。

2024-05-03 08:55:37 21

原创 Llama3-8B-Chinese-Chat 第一个使用ORPO微调的中文Llama3模型

我们最新提供了GGUF版本的Llama3-8B-Chinese-Chat模型,共有FP16和8bit量化两个版本可选,模型下载链接如下:FP16版本:8bit量化版本:如题目所示,我们开源了Llama3-8B-Chinese-Chat模型(基于Llama3-8B-Instruct[微调,模型下载请详见下面的huggingface链接),这是。

2024-05-02 21:30:14 432

原创 数仓建模—数据同步方案设计

直连同步日志解析同步我们介绍了一个常用的日志解析同步架构,以及它的变形。

2024-05-02 08:59:46 93

原创 数仓建模—表设计规范

表本身其实就是一组文件的集合,只不过我们赋予了它结构的概念,最终演化成了数据的组织方式。在整个数仓中从数据源到数据集成再到数据开发以及到最后的数据应用,我们都是通过表来完成的,也就是说我们的整个过程都是围绕着表来的。我们大致有下面几类表表(Table)是Hive的数据存储单元。它在逻辑上是由行和列组成的二维结构,每行代表一条记录,每列表示相同数据类型的一个字段。一条记录可以包含一个或多个列,各个列的名称和数据类型构成表的Schema。内部表:外部表:关于这个两个概念你可以参考。

2024-05-02 08:58:35 298

原创 数仓建模—事实表和维度表设计规范

建议对所有的表加上别名。一旦在SELECT语句中对表定义了别名,在整个语句中对此表的引用都必须以别名替代。考虑到编写代码的便捷性,约定别名尽量简洁,同时避免使用关键字。表别名采用简单字符命名。多层次的嵌套子查询,在别名之前要体现层次关系。SQL语句别名或分层的命名,从第一层次至第四层次,分别用P、S、U、D表示,取意为Part,Segment,Unit,Detail。也可用a、b、c、d来表示第一层次到第四层次。对于同一层次的多个子句,可以在字母后加1、2、3、4区分。必要时,为表别名添加注释。

2024-05-01 12:15:13 6

原创 数仓建模—数据资产管理

数据资产管理 的重点在管理上,数据资产管理其实是属于数据治理的一个环节,其实前面我们介绍过数据治理数据地图指标系统模型设计系统数据质量检测系统数据资产管理平台。

2024-05-01 12:13:55 12

原创 数仓建模—雪花模型和星型模型

我们看一下雪花模型和星型模型的对比属性星型模型雪花模型数据总量多少可读性容易差表个数少多查询速度快慢冗余度高低对实时表的情况增加宽度字段比较少,冗余底扩展性差好。

2024-05-01 12:12:45 5

原创 运营模型—RFM 模型

我们通过分别计算出R、F、M 的值,然后对其进行聚类,最后对聚类结果进行加权,我们得到了最终的一个用户得分,然后我们对得分进行区间划分,得到了用户的分层模型。其实我们也可以得到用户的R、F、M 的值后进行打标签,然后通过标签组合的方式确定那些用户是高价值,通过这种方式更加灵活。

2024-04-30 14:02:13 480

原创 运营模型—增长黑客 AARRR 海盗模型

获取用户指的是我们要了解目标用户群在哪,并且要最大程度地将他们转化成我们产品的用户。本阶段最主要的目的是将潜在的目标用户转化成我们产品的用户,并且开始使用产品。提高用户注册转化率的关键在于,调优产品的着陆页,要准确传达产品的核心价值。其次,要加强产品的新手引导,比如采用讲故事、语音 、视频等形式来生动展示,这样用户会觉得新鲜、好玩,才会去使用我们的产品。AARRR模型关键数据指标汇总如下:获取用户阶段:下载量、安装量、激活量。

2024-04-30 14:01:28 341

原创 运营模型—用户画像

综合上述分析,用户画像的数据模型,可以概括为下面的公式:用户标识 + 时间 + 行为类型 + 接触点+内容,也就是某用户因为在什么时间、地点、做了什么事。所以会打上标签。接触点内容直接决定了标签信息。内容地址、行为类型、时间衰减,决定了权重模型是关键,权重值本身的二次建模则是水到渠成的结果。用户画像的本质用户信息标签化,就是企业通过收集与分析消费者社会属性、生活习惯、消费行为等主要信息的数据之后,完美地抽象出一个用户的商业全貌作是企业应用大数据技术的基本方式。

2024-04-30 14:00:39 474

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除