自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

学而知之@的博客

分享自己工作、学习中的总结,欢迎小伙伴来撩~

  • 博客(43)
  • 收藏
  • 关注

转载 金融级实时数仓建设实践

导读本文将分享蚂蚁集团近两三年在实时数仓领域的探索和实践。本次分享将围绕以下四个方面展开:1.蚂蚁实时数仓架构2.实时数据质量保障3.流批一体应用4.数据湖落地展望分享嘉宾|马年圣 蚂蚁集团 实时数仓架构师,数据技术专家编辑整理|梁维内容校对|李瑶出品社区|DataFun01蚂蚁实时数仓架构1. 实时数仓架构设计蚂蚁实时数仓的架构主要包括计算引擎、研发平台、计算资源、实时资产、研发工具...

2024-04-11 17:55:16 109

转载 金融数据治理场景化实践

导读数据治理作为一项偏中后台的工作,其价值往往难以得到充分发挥和展现。本文将分享证券行业基于需求驱动的数据治理场景化实践。主要内容分为四部分:1.证券数据治理的痛点和建设框架2.国信证券数据治理实践的场景化落地3.总结与未来规划4.问答环节分享嘉宾|左银康 国信证券股份有限公司 数据治理负责人编辑整理|刘波特内容校对|李瑶出品社区|DataFun01证券数据治理的痛点和建设框架1. 证...

2024-03-19 18:18:56 92

转载 NVIDIA大语言模型落地的全流程解析

导读本文将分享 NVIDIA 在大语言模型领域的解决方案。包括三部分内容:1.第一部分是关于 NeMo Framework。NeMo Framework 是 NVIDIA 大语言模型的全栈解决方案,它通过不同组件完成生成式 AI 各个环节的任务,包括数据预处理、分布式训练、模型微调、模型推理加速及部署(TensorRT-LLM及Triton)、检索增强生成(RAG)、护栏技术(Guardrai...

2024-03-15 13:38:59 156

转载 新一代云数据平台架构演进之路

导读本文是由浙江数新网络有限公司为我们带来的《新一代云数据平台架构演进之路》的技术分享。本次分享分为四个部分:1. 大数据发展回顾2. 云数据平台演进趋势3. 云数据平台技术架构4. 云数据平台实践案例分享嘉宾|原攀峰 数新网络 CTO编辑整理|皮卡丘狮桥(中国)出品社区|DataFun01大数据发展回顾数据平台是指提供数据集成、数据存储、数据管理、数据处理、数据分析、数据服务等数据全生命周...

2023-03-15 13:28:42 731

转载 联想基于Apache DolphinScheduler构建统一调度中心的应用实践

导读随着业务不断增长以及定时任务类型的多样化,联想内部需要一个统一的调度中心对任务生命周期进行管理。Apache DolphinScheduler 是一个分布式、易扩展的可视化 DAG 工作流任务调度平台,致力于解决数据处理流程中错综复杂的依赖关系,使调度系统在数据处理流程中开箱即用。本次分享的主题是联想基于 Apache DolphinScheduler 构建统一调度中心的应用实践。全文将围绕...

2023-03-10 18:18:34 691

转载 京东实时数据产品应用实践

导读本文根据京东集团数据计算平台部产品规划负责人王威讲座整理,本次分享题目为《京东实时数据产品应用实践》。文章主要从以下四个方面介绍:1. 京东实时产品概况2. 低代码实时平台建设3. 流批一体化产品体系4. 产品运营:实时数据链路三道防线01京东实时产品概况1. 实时数据产品支撑业务场景京东实时产品的应用涵盖集团范围内的各个体系,包括零售、物流、健康等都有实时数据的应用场景,例如实时数仓、实...

2023-02-18 21:29:09 688

转载 StarRocks 在游族的多维分析场景与落地实践

导读:本文分享的主题是 StarRocks 在游族的多维分析场景,将从以下 4个方面展开:游族 OLAP 系统历史背景StarRocks 的特点和优势StarRocks 在游族 OLAP 系统中的应用场景游族 StarRocks 应用的未来规划01游族 OLAP 系统历史背景1. 历史背景与痛点首先分享一下我们的历史背景,上图是我们之前做实时和离线指标计算所使用的一些组件:分钟级别调度的指标计算:...

2023-02-14 10:04:54 519

转载 数据治理视角下的可观测性

导读:数据治理发展到今天已经形成了一套比较成熟的体系,关于数据治理,在实施阶段的方法论、流程、路径、工具有很多种,但整个项目能否成功落地的最大的风险点并不在数据治理的实施阶段,而是在于实施后对治理效果的验证与评估。例如,实施方在做了很多数据治理工作后缺乏有效的、客观的评价手段,导致数据治理人员无法观测治理设计和实际落地效果之间的差距,无法持续改善数据质量;另一方面,客户领导或业务部门对整个治理工程...

2023-02-10 21:02:40 369

转载 内容型(业务侧)数据产品治理最佳实践

导读当下如何更好地利用数据已经成为企业数字化转型的关键,因此数据治理变得越来越重要。数据产品经理在其中起到承上启下的作用,直接决定了数据是否能有效利用。今天和大家分享的是内容型数据产品经理在数据治理实际工作中的个人心得,包括适用的方法论和实际案例。今天的介绍分为四个部分:1.内容型数据产品面临的问题2.内容型数据产品的治理思路3.治理思路如何落地4.高阶的数据内容产品应该具备哪些能力01...

2023-02-08 20:06:44 330

转载 中通快递数据治理实践

导读:本次分享的内容是中通快递在数据治理方面的实践,主要会从如下四个方面展开:中通简介数据治理驱动力&目标数据治理实践未来规划01中通简介中通快递成立已经有将近 20 年时间,是一家以快递为主的大型综合物流服务企业。除了快递之外,还有国际、快运、云仓等等的一系列业务。根据今年二季度的数据来看,目前日均单量近 7000 万,市场份额已经达到了 23%,位居行业第一。除了及时把这么多包裹送到...

2023-02-06 23:43:57 597

转载 货拉拉数据治理平台建设实践

导读:在数据开发和数仓建设过程中,数据治理落地和提升数据质量的重要性逐渐凸显,本文将从货拉拉的数据治理实践出发,分享货拉拉在数据治理体系构建、数据质量平台建设、元数据平台建设方面的实践。今天的分享会围绕以下三个话题展开:货拉拉数据治理体系数据质量平台建设实践元数据平台建设实践01货拉拉数据治理体系首先和大家分享下数据治理的背景和现状。1. 背景与现状我们在做数据开发或数仓建设过程中,会遇到大量问题...

2023-02-05 20:47:13 474

转载 腾讯数据治理技术实践

导读随着公司业务方规模的增长,面对大量不同类型的数据,如何治理这些来源不同、数据量大的数据是一个值得思考的问题。本次分享结合腾讯内部数据管理方法,围绕数据治理技术实践,展开介绍腾讯在数据治理领域中做的相关工作,本次分享围绕以下三点展开:1.数据治理简介2.腾讯数据治理体系简介3.数据治理技术实践01数据治理简介首先介绍一下数据治理相关理论知识和概念,以便大家对数据治理有一定了解和认识。1....

2023-02-04 20:41:57 667

转载 深入解读 Flink CDC 增量快照框架

导读:随着大数据的迅猛发展,企业越来越重视数据的价值,数据采集工具也在不断改进,实时采集工具也在由长链路向短链路发展,今天和大家分享一下 Flink CDC 技术。在国内不断内卷的大环境下,技术更新迭代的速度也令人瞠目结舌,一个技术生态的形成也在各种场景的催生和验证下得到了快速的发展,相信Flink CDC会快速的成为主流架构。今天的介绍会围绕下面四点展开:Flink CDC 简介Flink CD...

2023-02-03 09:24:52 1994 2

转载 工业数据治理和数据资源化思考与实践

各位小伙伴,好。昨天为大家整理了金融行业数据治理相关的内容,今天跨行业为大家带来了工业数据治理的思考和实践。文章较长,预计阅读时长21分钟。要一直坚信,即使步子再小,用足够长的时间也会到达很远的终点!导读:近年来,数据治理和数据资产化成为了工业数字化进程中的重点,得到了越来越多企业的重视。如果您是企业数据技术团队负责人,负责数据治理或者数据管理相关工作,董事长或总经理需要围绕企业未来产业发展,要求...

2023-02-02 09:12:28 472

转载 金融数据治理实践与思考

导读:结合当前业界数据治理的现状、背景、框架,我们可能希望了解一个从 0~1的数据治理架构体系怎么做。也有朋友会有疑问:数据治理的管理、域间组合和协同,他们是什么样的一个关系,该怎么样去开展?另外,在这几年的金融行业的数据治理过程中,有哪些具体的实践?为了帮助大家解决这些困扰,本文将对金融数据治理的实践与思考,做一个梳理和总结。万字长文和大家一起学习、讨论金融行业的数据治理背景和架构体系,耐心读完...

2023-02-01 09:20:18 201

转载 数据管理体系的建设和发展

导读:在大数据时代,数据已经成为一项重要资产,数据管理的重要性也越发凸显。本文从比较专业的视角介绍了数据管理体系的发展历程,文章内容较长,但对于目前正在学习数据治理体系的小伙伴而言肯定会受益匪浅。目前本人也在学习相关知识,欢迎一起讨论。本次分享题目为数据管理体系的建设和发展,主要介绍:大数据行业的历史发展数据管理体系数据要素市场化数据易公司介绍01大数据行业的历史发展1. 从 IT 时代进入 DT...

2023-01-31 09:08:00 799

转载 腾讯内部数据治理实践

点击上方卡片进入公众号主页技术帖会持续更新,愿所有的小伙伴都学有所成、学以致用导读:本文主要介绍目前腾讯数据治理的所在阶段和实践经验,以及基于目前的经验所沉淀的数据治理平台:WeData。今天的介绍会围绕下面三方面展开:数据治理挑战腾讯内部数据治理实践WeData 数据治理平台能力01数据治理挑战首先和大家分享腾讯在数据治理上所面临的挑战。1. 数据治理的挑战在数据治理的过程中会遇到很多问题,我们...

2023-01-30 09:16:19 386

转载 顺丰科技数据治理实践

导读:本文介绍顺丰科技在数据治理方面的实践。分享分为两个部分,第一部分总体介绍顺丰科技在整个数据治理过程中的心路历程:我们做了哪些工作,在数据治理各个领域,分别做了什么事情。第二部分分享数据治理中关键的主数据管理在顺丰科技的实践和落地情况。如下:1. 顺丰数据治理总体介绍体系建设演进路线顺丰数据治理框架数据治理各领域能力介绍2.顺丰数据治理实践分享数据治理工作的关键要素顺丰主数据治理实践分享分...

2023-01-29 21:47:14 178

原创 基于DolphinScheduler的使用浅谈数仓分层及模型设计

前言:本文旨在简单介绍DS的概述和架构上的设计,对其安装等不做展开介绍。之前了解了一下,很多小伙伴也在使用该产品。我呢,也是到现在公司后才开始接触并使用,对其 “开发” 的还不够深,这里根据官方文档和项目中的实践和大家简单分享。欢迎大家批评指正,敬礼!一、简介DS是分布式易扩展的可视化工作流任务调度平台。Apache DolphinScheduler是一个分布式去中心化,易扩展的可视化DAG工作流任务调度平台。致力于解决数据处理流程中错综复杂的依赖关系,使调度系统在数据处理流程中开箱即用。二、架构

2021-08-14 00:15:18 7579

原创 数据模型无法复用?归根到底谁来“背锅”?

摘要:通过本文的学习你将收货一些实实在在的干货,尤其对于数仓的小伙伴而言,我相信会有一些新的的认识。本文主要内容包括:1、什么才是好的数据模型2、如何衡量模型的完善...

2021-07-15 21:15:26 729

转载 数据仓库有坑怎么办,如何从0到1来填坑

数据仓库有坑怎么办,如何从0到1来填坑|0x00 什么是数据仓库的坑“填坑”是一个新人刚加入团队,或者是接手一个新业务,所以经常需要面对的事情。“坑”的出现,与历史业务的发展,密切相关。通...

2021-07-07 22:15:22 133

原创 从快手的指标规范出发聊一聊如何管理杂乱的数据指标

摘要:今天分享的主要内容是数据指标的管理工作,以及快手是如何进行指标规范化的,还有快手的OneService平台化实战。内容干货满满,欢迎各位同学关注、留言交流。主要内容包括:1、...

2021-07-06 07:23:54 1418

原创 实时和离线,大数据计算引擎谁主沉浮

摘要:今天分享的主要内容是实时、离线大数据计算引擎的简介和对比,希望通过此文各位同学能收获一二。本文主要内容包括:1、Flink简介2、Spark简介3、F...

2021-06-30 08:28:21 2286

转载 将博客搬至CSDN

为了和大家更好的交流,即日起将公众号上的所有文章同步到CSDN啦!!链接:https://blog.csdn.net/weixin_42138677?spm=1010.2135.3001....

2021-06-24 09:31:22 51

原创 元数据:快手元数据平台建设及应用场景

点击上方「蓝字」关注我们摘要:今天分享的主要内容是元数据相关的概念和快手元数据平台建设及应用场景。主要内容包括:1、元数据简介2、元数据分类3、元数据管理...

2021-06-23 08:36:41 1308

原创 数据湖:Apache Iceberg在腾讯的探索和实践

摘要:今天分享的是Apache Iceberg在腾讯内部的探索和实践。本文结合腾讯大数据技术分享内容和2020全球软件开发大会分享内容进行整理,主要内容包括:1、数据湖技术概述...

2021-06-17 08:29:17 698

原创 快手如何是从模型规范开始进行数据治理的,安排

 吃粽子、赛龙舟、喝雄黄一年一度的端午节又到啦,在这佳节之际,祝福所有的朋友端午安康、万事如意、财源滚滚啦~上篇文章是基于快手的直播场景和大家聊了聊数据质量的话题,收到了很多朋友的好评。今...

2021-06-14 08:21:22 404

原创 基于快手直播场景聊一聊数据质量体系

点击上方蓝字关注我们,及时获取最新咨询!!点关注,不迷路~ 摘要:今天分享的内容是基于快手直播场景谈一谈数据质量体系 分享时间:2021年6月10号内容分享:杨老师...

2021-06-10 08:03:43 1095

原创 Canal实时同步MySQL数据至Kafka集群,安装部署

一、前言:本集群基于Canal-Admin实现,并包括Canal-Admin部署流程。Canal-Admin由阿里官方提供,为canal提供整体配置管理、节点运维等面向运维的功能,提供相对友好的WebUI操作界面,方便更多用户快速和安全的操作。...

2021-06-08 01:01:22 1266

原创 作业帮实时数仓架构中的Doris是如何发挥神威的,一文玩儿透(建议收藏)

关 注 公 众 号,获 取 更 多 技 术 好 文~摘要:今天分享的内容是Doris在作业帮实时数仓架构中的应用及实践分享时间:2021年6月05日内容分享:利敏摘要整理:皮卡丘主要内容...

2021-06-07 09:27:34 917

原创 基于阿里OneData思想,深入剖析数据仓库方法论(建议收藏)

摘要:今天分享的主要内容是基于百度的数据仓库方法论(精华版)分享时间:2021年6月2号分享内容:石老师摘要整理:皮卡丘主要内容:1.数据中台简介2.数据仓库方法论...

2021-06-02 09:23:52 721

原创 ClickHouse如何在字节跳动内部演化的,详解(建议收藏)

关注公众号,获取更多一线大厂最新技术序:前天分享了关于ClickHouse在苏宁用户画像场景的实践,收到了好多兄弟的好评,秉持着“卡丘出品,必属精品”的原则,今天再为大家奉上一篇绝世好文,...

2021-05-28 09:42:24 711

转载 快手基于Flink构建实时数仓场景化实践

摘要:今天主要分享的内容是 Flink 在快手的实践和应用,分享日期:2021年5月22日。内容包括:快手实时计算场景快手实时数仓架构及保障措施快手场景问题及解决方案未来规划Tips:点击...

2021-05-27 09:33:22 90

原创 一文搞定ClickHouse在苏宁用户画像场景的实践(建议收藏)

关注公众号,获取更多一线大厂最新资讯!摘要:今天分享的主要内容是ClickHouse在苏宁用户画像场景的实践分享时间:2021年5月26日内容分享:杨兆辉摘要整理:皮卡丘主要内容:苏宁如何...

2021-05-26 09:10:19 3157

原创 关于数据仓库,你想知道的全在这里(建议收藏)

一、什么是数据仓库W.H.Inmon在《 Building the Data Warehouse 》一书中,对数据仓库的定义为:数据仓库是一个面向主题的、集成的、非易失的、随时间变化的用来...

2021-05-25 00:35:23 516

原创 数据仓库之扫盲篇(一)

一、前言本文核心点:了解互联网仓库是做什么的,数仓生态体系,数仓人员接触的产品。二、主要内容2.1、什么是数据仓库数据仓库是一种理论知识,通过数仓理论知识结合不同的业务体系而构建的数据生命体系,数据生命体系构建于整个数据平台体系之上业务体系之下。2.2 、公司为什么搭建数据仓库首先当一个公司业务体系可以实现商业化变现,需要通过数据来精细化运营,通过数据科学来指导商业决策,需要一套敏捷的数据来决策公司的业务策略,而数据仓库是整个公司体系的中间层,上对接产品分析,下对接平台开发,左对接业财一体,右对

2021-05-24 23:56:06 351 7

原创 大数据常用的架构

大数据常用的架构随着多年的大数据的技术发展和积累,越来越多的人发现各个公司所使用的大数据技术大致可以分为两大类,分别是离线处理技术和实时处理技术,要么个别公司只有离线处理技术,要么个别公司只有实时处理技术,但是绝大部分公司基本上都是两种技术架构都带着一起在做,以为我们的业务1、lambda架构基本介绍1.1、业务系统基本流程介绍1.2、lambda架构基本介绍lambda架构最早是由storm的创始人,Nathan Marz进行提出并描述了我们目前所了解的lambda架构,其实lamda架构先入

2021-05-24 00:58:31 1014 6

原创 Hadoop集群配置(二)免密登录和集群配置

写在开头:难难难道德玄,不对知音不可谈,对了知音谈几句,不对知音枉费舌尖~~咱们书接上回,上一篇写完了基础环境的配置,这篇就来说硕同样重要的免密登录,当然还有Hadoop集群的配置。2.1 三台linux服务器环境准备1. 三台机器IP设置三台机器修改ip地址:# 对网库进行设置vi /etc/sysconfig/network-scripts/ifcfg-ens33 # hadoop版本IP设置BOOTPROTO="static"IPADDR=192.168.32.100NETMA

2021-05-20 23:48:18 1703 5

原创 Hadoop集群配置(一)VM和CentOS配置

一、环境准备:1.1 VMWARE15.5简介与安装简介:简而言之,vmware是一个虚拟化工具,它可以安装在我们windows,然后在vmware里安装linux系统安装:安装步骤详见其他博主文章,这里咱就不赘述了。下面帮大家搬运了一篇,可以参照以下链接:VMWARE15.5安装步骤。关于软件下载和激活密钥,如有需求可关注文末公众号,联系我索要[此处有????]1.2 Centos7.x系列安装安装准备:准备好centos7.x系列的ISO结尾的镜像文件,本文档采用的是cent

2021-05-19 00:47:47 268

原创 你想知道的HIVE知识,全在这里(建议收藏)

1、What's Hive1.1 Hive的简介Hive 是由 Facebook 开源的基于 Hadoop 的数据仓库工具,用于解决海量结构化日志的数据统计。 可以将结构化的数据文...

2021-05-18 00:24:57 110

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除