自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(733)
  • 收藏
  • 关注

原创 111111111

1、请做一下自我介绍自我介绍很重要。无论面试什么岗位,面试官通常都会问你一个最常见的问题:“请做一下自我介绍。” 在准备面试时,我给大家提供了一个项目经理面试自我介绍的模板,你可以参考并进行个性化优化,打造出属于自己的自我介绍。例如下面这段自我介绍模板:我叫xxx,今年xxx岁,毕业于xxx大学。毕业后我先后在xxx公司和xxx公司工作过,主要负责xxx系统的需求分析和项目实施交付。在过去...

2024-07-10 00:23:00 389

原创 项目管理面试常见问题及答案

1. 项目管理软件工具知识,  2. 编制项目计划的技术,  3. 人员管理技能  4. 沟通技能  5. 原理体系知识(标生命周期和项目管理)。项目管理软件工具知识  问题1:工期和工作量之间的差异是什么?  答案1:工期是商业/日历上的天数,与人数和工作量无关。工作量是与日历天数无关的人的工作。例如:  一天的工作量对于一个一只花50%在时间在上面的人来说,他的工期就是两天。...

2024-07-09 19:43:00 689

原创 数据治理--房产项目

2024-06-09 00:04:00 279

原创 数据治理--信息资源目录编制

2024-06-08 00:20:00 106

原创 数据治理--模板

支持重跑 建临时表的方式

2024-06-07 13:18:00 72

原创 数据治理--应急行业项目 非常有用

2024-06-05 00:43:00 77

原创 数据治理--政务行业项目 数据治理全流程,模板图片 各种规范 非常有用

责任清单数据接入后做数据标准和清洗数据格式错误,记录数为空,数据重复,数据不准确,字段命名不统一数据标准主要是:元数据,分类与编码,下一步:数据质量 主要是为了检查是否按照数据标准去做的稽核报告空值,准确性,格式,唯一性,一致性.基础信息用主题建模.例如各种详细信息表. ...

2024-06-04 23:33:00 198

原创 数据治理--数据服务

2024-06-04 23:30:00 94

原创 数据治理--主数据

2024-06-04 21:45:00 258

原创 数据治理--数据处理,数据仓库 数仓分层,数据建模流程 数仓设计规范

2024-06-04 21:24:00 102

原创 数据治理--数据安全

2024-06-04 17:14:00 296

原创 数据治理--元数据

人工主要维护的是业务元数据,维护权限,分层,安全等级元数据发布必须经过下游系统确认影响程度,然后进行审批才可以发布第二步由数据处理程序发送血缘信息, 例如在注解部分增加血缘描述...

2024-06-04 10:58:00 112

原创 数据治理--数据质量

2024-06-04 10:56:00 313

原创 数据治理--结构化数据处理 各种情况的数据重跑,流水表用拉链表

src到ods层数据字段对应关系实际用的表案例src层到ods按照数据标准建表工具日期无穷大为开链状态,日期为某个特定日期为关链状态...

2024-06-04 04:43:31 157

原创 数据治理--03数据标准 形成企业自身标准6个文档, 怎么通过数据标准一步步建表...

数据元-----怎么把pdf文件中的数据元转化成建字段匹配不上的去词根文档里去匹配将编码规则信息化

2024-06-04 00:35:00 340

原创 数据治理--数据接入 批量接入脚本生成工具 判断增量全量,过滤

表变化频率比较低的表 覆盖-----项目中一般是这种场景数据接入工具

2024-06-03 21:57:00 350

原创 数据治理--企业数据服务 数据连接注册成API并且通过网关去限流 数据同步

不直接开发hive的API访问速度慢,开放内存Presto的API去hive库查这样快第一种不安全, 第二种公司内部用比较安全,结构文件落到对方ftp服务器 第三种一般跨网络同步数据同步任务创建和执行监控证券案例...

2024-06-03 21:29:00 204

原创 数据治理--数据盘点 盘点流程 表,字段调研 政府三清单 政府共享平台

第二步比较重要:对现有的数据做抽象,做主题分类最后一步分析字段比较麻烦,因为有时候数据库字段并没有注释,需要从前台系统插入数据一步步了解流程图viso自己画,业务系统调研-系统业务人员填写业务系统调研模板不需要录入系统的表调研表的模板调研字段模板政府案例政府三清单模板政府部门共享交换平台...

2024-06-03 21:12:00 172

原创 数据治理之数据质量管理 一般有用 看1

一、数据质量概述什么是数据质量数据质量差的危害数据质量维度(数据六大评价标准)什么是数据质量测量数据质量测量必须要有目的数据质量测量必须可重复数据质量测量必须可解释什么是数据质量管理二、数据问题根因分析什么是根因分析为什么要进行根因分析产生数据问题的阶段规划设计阶段数据创建阶段数据使用阶段数据老化阶段数据消亡阶段产生问题的原因业务原因技术原因管理原因根因分析的方法根因分析的工具鱼骨图5WHY图故...

2024-04-25 12:08:00 400

原创 数据治理之数据梳理与建模 一般有用 看1

一、什么是数据模型二、数据模型的类型概念模型概念模型的3个基本要素概念模型的用途逻辑模型逻辑模型的特征逻辑模型的用途物理模型物理模型特征物理模型用途三、什么是数据梳理数据梳理两种流程自上而下梳理数据域梳理数据主题梳理数据实体梳理设计数据模型优缺点自下而上梳理需求分析展现分析逻辑数据建模优缺点四、数据建模技术和方法ER模型五、数据建模与数据治理数据模型和数据治理的关系数据模型VS元数据数据模型VS...

2024-04-25 12:04:00 362

原创 数据治理之元数据管理 元数据采集内容 一般有用 看1

一、元数据管理概述什么是元数据元数据的3种类型业务元数据技术元数据操作元数据元数据的作用什么是元数据管理元数据管理的目标建立指标解释体系提高数据溯源能力数据质量稽核体系元数据管理的阶段二、元数据管理方法业务目标理解建立企业数据资产目录消除冗余加强数据复用降低因人员流动而导致知识流失的风险提供数据血缘探查能力, 提高数据分析的质量三、元数据管理技术元数据采集元数据管理元数据应用数据资产地图元数据血...

2024-04-25 12:02:00 615

原创 数据标准 有用 看1

什么是数据标准1.数据标准的概念首先,我们要明白什么是数据标准概念,根据中国通信院的定义:数据标准,是指保障数据的内外部使用与交换的一致性和准确性的规范性约束。我们可以简单理解,数据标准,就是组织内部各个部门,各个数据相关人,共同使用的一个语言,达成的一个共识。比如一个部门内部在开会,有人说方言,有人说英语,有人说普通话,大家由于语言不一致,导致沟通费时费力。而如果制定...

2024-04-25 11:59:00 362

原创 按照业务领域画数据架构图 业务架构 数据架构

什么是数据应用数据应用是通过各种各样的数据分析方式将数据展示出来,给决策者、管理者、运营等人员透传数据价值的工具,帮助决策者、管理者及时调整战略目标、公司目标、业务目标,帮助运营人员更好地实现精细化运营、提升运营效率。从整个大数据架构来看,它处于整个大数据体系的最上层,也就是数据应用层,以我所参与开发的电商业务数据应用为例,在这一层主要有以下几种类型的数据应用:数据应用架构整个电商数据应用...

2024-04-21 01:53:00 404

原创 数据治理2 美团

今天我们来探讨一下关于数据治理的灵魂三问:1、数据治理治什么,治的是数据吗?2、数据治理在哪里治,中台还是后台?3、数据治理到底怎么治?一、数据治理 治的是“数据”吗?数据是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合。其实在我看来,数据可以分为两个部分,一是数字,二是文字。数字是没有意义的抽象符号,数据是有意义的数...

2024-04-21 01:52:00 396

原创 数据治理2 有用 看1

????数据治理是一个综合性的概念,它是指组织或企业如何管理、维护、保护和优化其数据资产的过程。数据治理包括数据策略、数据管理、数据质量、数据安全、数据架构、数据流程和数据文化等方面。1️⃣数据策略是指制定数据治理的目标、原则和规范,以确保数据的质量和价值;2️⃣数据管理是指对数据进行收集、存储、处理和使用等方面的管理;3️⃣数据质量是指确保数据的准确性、完整性、一致性和可靠性;4️⃣数据安全是...

2024-04-20 14:06:00 344

原创 数据治理1 有用 看1

数据治理对于企业来说至关重要。它可以帮助企业清晰地了解自己的数据资源、数据流和数据质量。通过有效的数据治理,企业能够更好地管理和控制数据,最大化数据的价值,并在决策过程中减少错误和风险。数据治理的步骤及原则数据收集和整合数据治理的第一步是收集和整合数据。这包括从不同的系统和部门中收集数据,然后将其整合到一个统一的系统中。【数据猎手】的方案比较特殊,作为结合AI技术、价格...

2024-04-18 19:05:00 221

原创 ClickHouse深度解析 一般有用 看1 速

一、什么是ClickHouse?ClickHouse由俄罗斯第一大搜索引擎Yandex于2016年6月发布, 开发语言为C++,ClickHouse是一个面向联机分析处理(OLAP)的开源的面向列式存储的DBMS,简称CK, 与Hadoop、Spark这些巨无霸组件相比,ClickHouse很轻量级,查询性能非常好,使用之后会被它的性能折服,非常值得安利。二、适用场景志数据行为分析...

2024-04-02 23:03:00 1027

原创 大数据模型、离线架构、实时架构 有用 各种架构图及优点

一.大数据模型8种常见的大数据分析模型:1、留存分析模型;2、漏斗分析模型;3、全行为路径分析;4、热图分析模型;5、事件分析模型;6、用户分群模型;7、用户分析模型;8、黏性分析模型。1、留存分析模型留存分析模型是一种用来分析用户参与情况/活跃程度的分析模型,考察进行初始行为的用户中,有多少人会进行后续行为,这是用来衡量产品对用户价值高低的重要方法。2、漏斗分析模型漏斗分析是一套流程...

2024-03-31 22:59:00 505

原创 客快物流大数据项目(四十六):Spark操作Kudu dataFrame操作kudu

Spark操作Kudu dataFrame操作kudu一、DataFrameApi读取kudu表中的数据虽然我们可以通过上面显示的KuduContext执行大量操作,但我们还可以直接从默认数据源本身调用读/写API。要设置读取,我们需要为Kudu表指定选项,命名我们要读取的表以及为表提供服务的Kudu集群的Kudu主服务器列表。代码示例/** * 使用DataFrame...

2024-03-30 00:36:00 363

原创 客快物流大数据项目(八十六):ClickHouse的深入了解 一般有用 看1

​ClickHouse的深入了解一、介绍ClickHouse是俄罗斯的Yandex于2016年开源的面向OLAP列式数据库管理系统(DBMS)ClickHouse采用 C++ 语言开发,以卓越的查询性能著称,在基准测试中超过了目前很多主流的列式数据库ClickHouse集群的每台服务器每秒能处理数亿到十亿多行和数十千兆字节的数据ClickHouse会充分利用所有可用的硬...

2024-03-30 00:35:00 744

原创 客快物流大数据项目(四十五):Spark操作Kudu DML操作

Spark操作Kudu DML操作Kudu支持许多DML类型的操作,其中一些操作包含在Spark on Kudu集成. 包括:INSERT - 将DataFrame的行插入Kudu表。请注意,虽然API完全支持INSERT,但不鼓励在Spark中使用它。 使用INSERT是有风险的,因为Spark任务可能需要重新执行,这意味着可能要求再次插入已插入的行。这样做会导致失败,因...

2024-03-30 00:30:00 255

原创 客快物流大数据项目(四十四):Spark操作Kudu创建表

Spark操作Kudu创建表Spark与KUDU集成支持:DDL操作(创建/删除)本地Kudu RDDNative Kudu数据源,用于DataFrame集成从kudu读取数据从Kudu执行插入/更新/ upsert /删除谓词下推Kudu和Spark SQL之间的模式映射到目前为止,我们已经听说过几个上下文,例如SparkContext,SQLContext,H...

2024-03-30 00:29:00 240

原创 客快物流大数据项目(九十三):ClickHouse的ReplacingMergeTree深入了解 ClickHouse清除重复数据...

​ClickHouse的ReplacingMergeTree深入了解为了解决MergeTree相同主键无法去重的问题,ClickHouse提供了ReplacingMergeTree引擎,用来对主键重复的数据进行去重。删除重复数据可以使用optimize命令手动执行,这个合并操作是在后台运行的,且无法预测具体的执行时间。在使用optimize命令执行合并时,如果表数据量过大,会导致耗时很长,...

2024-03-29 23:24:00 638

原创 客快物流大数据项目(五十一):数据库表分析 物流项目 数据库表设计

数据库表分析一、物流运输管理数据库表1、揽件表(tbl_collect_package)2、客户表(tbl_customer)3、物流系统码表(tbl_codes)4、快递单据表(tbl_express_bill)5、快递包裹表(tbl_express_package)​​​​​​​6、客户地址表(tbl_address)​​​​​​​7、客户寄件信息表(tbl_consumer...

2024-03-29 23:18:00 536

原创 客快物流大数据项目(四十二):Java代码操作Kudu

Java代码操作Kudu一、构建maven工程二、导入依赖三、​​​​​​​创建包结构四、​​​​​​​初始化方法五、​​​​​​​创建表六、​​​​​​​插入数据七、​​​​​​​查询数据八、修改数据九、​​​​​​​删除数据十、​​​​​​​修改表十一、​​​​​​​删除表Java代码操作Kudu一、​​​​​​​构建maven工程二、导入依赖&lt...

2024-03-29 23:14:00 624

原创 客快物流大数据项目(八十二):Kudu的读写原理 一般有用 看1

Kudu的读写原理一、​​​​​​​工作模式Kudu的工作模式如下图,有些在上面的内容中已经介绍了,这里简单标注一下:每个kudu table按照hash或range分区为多个tablet;每个tablet中包含一个MemRowSet以及多个DiskRowSet;每个DiskRowSet包含BaseData以及DeltaStores;DeltaStores由多个...

2024-03-29 23:11:00 324

原创 客快物流大数据项目(六十二):主题及指标开发 common包下定义的一些内容 一般有用 看1...

主题及指标开发一、主题开发业务流程二、离线模块初始化1、创建包结构2、​​​​​​​创建时间处理工具3、​​​​​​​定义主题宽表及指标结果表的表名4、​​​​​​​物流字典码表数据类型定义枚举类5、​​​​​​​封装公共接口主题及指标开发一、主题开发业务流程二、​​​​​​​离线模块初始化1、​​​​​​​创建包结构本次项目采用scala编程语言,因此创建sc...

2024-03-29 22:41:00 281

原创 客快物流大数据项目(六十八):工作流调度 azkaban介绍及用法 一般有用 图片偏多 看1...

工作流调度一、工作流产生背景工作流(Workflow),指“业务过程的部分或整体在计算机应用环境下的自动化”。是对工作流程及其各操作步骤之间业务规则的抽象、概括描述。工作流解决的主要问题是:为了实现某个业务目标,利用计算机软件在多个参与者之间按某种预定规则自动传递文档、信息或者任务。一个完整的数据分析系统通常都是由多个前后依赖的模块组合构成的:数据采集、数据预处理、数据分析、数据展示等。各...

2024-03-29 22:36:00 501

原创 客快物流大数据项目(八十五):实时OLAP分析需求 一些组件的特点 一般有用 看1...

​实时OLAP分析需求一、​​​​​​​背景介绍在之前的文章学习了离线数仓的构建,但是离线数仓的最大问题即:慢,数据无法实时的通过可视化页面展示出来,通常离线数仓分析的是“T+1”的数据,针对于时效性要求比较高的场景,则无法满足需求,例如:快速实时返回“分组+聚合计算+排序聚合指标”查询需求。因此智慧物流系统的应用场景分为以下几个部分:Spark-to-Kudu 小时/日级场景Spa...

2024-03-29 22:28:00 718

原创 客快物流大数据项目(四十一):Kudu入门介绍 一般有用 看1

Kudu入门介绍一、背景介绍二、新的硬件设备三、Kudu是什么​​​​​​​四、​​​​​​​Kudu的应用场景五、​​​​​​​Kudu架构Kudu入门介绍一、背景介绍在Kudu之前,大数据主要以两种方式存储;静态数据:以 HDFS 引擎作为存储引擎,适用于高吞吐量的离线大数据分析场景。这类存储的局限性是数据无法进行随机的读写。动态数据:以 HBase、Ca...

2024-03-29 22:24:00 231

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除