- 博客(104)
- 资源 (351)
- 收藏
- 关注
原创 【说透中台】04 | 万事预则立:中台建设前必须想清楚的四个问题
中台建设前必须想清楚的四个问题:中台建设的愿景是什么?中台的用户和客户是谁?中台的钱由谁出?中台的目标怎么验证?
2022-06-01 13:56:38
391
原创 【说透中台】03 | 中台定义:当我们谈中台时到底在谈些什么?
我们先来看企业为什么要建中台?想要回答这个问题,咱得先解决另一个问题,那就是企业为什么需要平台化?企业为什么需要平台化呢?先给我的答案:因为在当今这样一个互联网时代,用户才是商业战场的中心,为了快速响应用户的需求,借助平台化的力量可以事半功倍。这背后的逻辑很简单,不断地快速响应、探索、挖掘、引领用户的需求,才是企业得以生存和持续发展的关键因素。那些真正尊重用户,甚至不惜调整自己、颠覆自己来响应用户的企业,将在这场以用户为中心的商业战争中得以生存和发展。反之,那些在过去的成就上故步自封,存在侥幸心理希望
2022-06-01 11:31:14
352
原创 【说透中台】02 | 中台种类:你听说的中台真的是中台吗?
直到目前,中台的概念仍然存在着很多迷雾,中台到底是什么?中台到底该长什么样子?有哪些种类?对企业到底有什么价值?我需不需要建中台?这些问题在你心中可能仍然没有确切的答案。一起看一看,截至目前出现过的一些不同种类的中台,看看从这些看似不同种类的中台背后,我们能不能找到一些共同的特点。下一讲我会带你一起来探寻中台的本质,来解答你心中的疑惑。至于中台的分类,我把目前出现的这些中台分为“主流”和“非主流”两类,下面就带你一一来看...
2022-06-01 11:04:28
515
原创 【SDC】StreamSets实战之路-20-环境篇- 如何在CDH中安装和使用StreamSets
StreamSets是一个大数据采集工具,数据源支持包括结构化和半/非结构化,目标源支持HDFS,HBase,Hive,Kudu,Cloudera Search, ElasticSearch等。它包括一个拖拽式的可视化数据流程设计界面,定时任务调度等功能...
2022-06-01 09:35:18
203
原创 centos locate 命令安装
1、运行locate$ locate-bash: locate: command not found提示找不到命令2、安装$ sudo yum install mlocate3、执行$ locate hellolocate: can not stat () `/var/lib/mlocate/mlocate.db’: 没有那个文件或目录4、初始化$ sudo updatedb5、过几分钟再执行就可以执行locate找到相应的文件了...
2022-05-20 17:37:22
410
原创 向量化执行引擎是怎么玩的?
在比较前沿的数据库中,比如cilckhouse,polar-x,TDSQL,都提到了一个比较新的词汇,叫向量化执行引擎。clickhousepolarDB-Xtdsql-A向量化执行引擎似乎已经成为了主流数据库的版本之子。那么向量化执行引擎是什么东西,做了哪些优化,能有什么收益呢?我决定来分析一下。传统数据库执行器早期数据库受限于硬件水平,IO、内存和CPU资源都非常昂贵,所以大多数数据库的执行器都采用的是传统的火山模型(经典的Volcano 模型)。火山模型又称 Volcano Mo
2022-05-20 14:11:00
609
原创 Linux下打开ISO文件两种方法
方法一、Linux下用mount挂载命令在网上下载的软件盘是iso格式的,不刻成光盘就可以读取里面的文件。不用解压。在终端用mount -o loop /mnt/*/1.iso /mnt/cdrom 命令,(其中*是你工具盘放置的路径)。输入命令后,打开我的电脑——〉打开CD-ROM就能看到里面的文件了。运行install或者 autorun。当提示charudi二张光盘时,键入命令umount /mnt/cdrom 。然后再键入mount -o loop /mnt/*/2.iso/mnt/cdr
2022-05-19 14:53:47
6997
原创 【数据治理】什么是时序数据?如何治理?有哪些应用场景?终于有人讲明白了
时序数据处理应用于智慧城市、物联网、车联网、工业互联网领域的过程数据采集、过程控制,并与过程管理建立一个数据链路,属于工业数据治理的新兴领域。本文主要讲解时序数据的定义、典型特点、时序数据的应用场景、数采难点及时序数据工具等内容...
2022-05-09 17:43:43
1511
原创 【Python】cenots Python2 安装PyMySQL
cenots Python2 安装PyMySQL需要三步走1、下载pymysql包wget https://files.pythonhosted.org/packages/44/39/6bcb83cae0095a31b6be4511707fdf2009d3e29903a55a0494d3a9a2fac0/PyMySQL-0.8.1.tar.gz2、解压tar -zxvf PyMySQL-0.8.1.tar.gz3、安装进入PyMySQL-0.8.1目录,执行:python setup.py i
2022-05-07 18:18:02
1497
原创 【数据治理】One ID中的核心技术ID-Mapping究竟是怎么实现的
为啥要做ID Mapping?其实技术都是为了解决实际业务问题的。如果没有数据孤岛的问题,也就不会有这波澜壮阔的数字技术发展和改革。在 10 多年前的时候,当时IT界都还在做“四库十二金”的项目。我就接了这么一个活,就是把一个地区的所有地址给弄干净。这可就费劲了,因为同一个地址有 N 多种写法,比如说“大裤衩”,全称叫“中央电视台总部大楼”,门牌号是“北京市朝阳区东三环中路32号”,也有别称叫“中央电视台新址”,而且还有具体经纬度。这么乱的情况,一不小心就给弄错了。我们当时接的项目就是把这乱七八糟的地
2022-05-04 06:27:50
1055
原创 海量数据相似度计算之simhash短文本查找
借鉴hashmap算法找出可以hash的key值,因为我们使用的simhash是局部敏感哈希,这个算法的特点是只要相似的字符串只有个别的位数是有差别变化。那这样我们可以推断两个相似的文本,至少有16位的simhash是一样的。具体选择16位、8位、4位,大家根据自己的数据测试选择,虽然比较的位数越小越精准,但是空间会变大。分为4个16位段的存储空间是单独simhash存储空间的4倍
2022-04-13 11:57:20
684
1
原创 海量数据相似度计算之simhash和海明距离
通过 采集系统 我们采集了大量文本数据,但是文本中有很多重复数据影响我们对于结果的分析。分析前我们需要对这些数据去除重复,如何选择和设计文本的去重算法?常见的有余弦夹角算法、欧式距离、Jaccard相似度、最长公共子串、编辑距离等。这些算法对于待比较的文本数据不多时还比较好用,如果我们的爬虫每天采集的数据以千万计算,我们如何对于这些海量千万级的数据进行高效的合并去重。最简单的做法是拿着待比较的文本和数据库中所有的文本比较一遍如果是重复的数据就标示为重复。
2022-04-13 11:53:30
475
原创 【数据治理】都柏林核心元素集(DC)
都柏林核心元素(以下简称DC)集是一个致力于规范Web资源体系结构的国际性元数据解决方案,它定义了一个所有Web资源都应遵循的通用的核心标准,其内容较少,也比较通用,因此得到了其他相关标准的广泛支持。面向其他类型资源的元数据标准,基本上都兼容DC标准,并对它作了扩展。它已经成为Internet的正式标准RFC2413和美国国家信息标准Z39.85。...
2022-04-11 14:37:36
1497
原创 【数据治理】数据分析八大模型:OGSM模型
OGSM是一套企业管理方法论,包含四个部分 O(Objective):目的,指企业要达成的目标,一般是定性描述 G(Goal):目标,从企业目标里拆分出的,可量化/可跟踪的目标 S(Strategy):策略,达成目标的做法组合 M(Measurement):度量,衡量策略是否执行到位...
2022-04-06 10:02:50
963
原创 【数据治理】数据元=元数据?
数据元和元数据这两个概念一般人比较容易混淆,之前我也比较困惑,读了10几篇关于这方面的文章和相关书籍,终于对这两个词有了比较深刻的理解,下面我们看下他们之间的**2个共同点和5个差异点**。...
2022-04-06 09:46:23
1105
原创 大数据分析,到底分析了啥?
“大数据”仨字已经被喊烂了,“大数据分析”也经常被人提起。可到底咋完全是“大数据分析”?为啥大家喊得很多,平时工作中很少感受得到。
2022-04-06 09:41:16
827
原创 【Hudi】数据湖Hudi核心概念与架构设计总结
Hudi是现在非常热门的数据湖开源方案,非常适合于搭建一个数据湖平台。有些人认为数据湖肯定与大数据技术体系完全不一样,是两个东西,甚至认为他俩没关系。但是,你知道Hudi的全称叫啥么?就是“Hadoop Updates and Incrementals”简单来说,就是基于Hadoop生态,支持HDFS的数据删除和增量更新的技术框架。所以,Apache Hudi其实本就是从Hadoop生态里来的,依赖 HDFS 做底层的存储,所以可以支撑非常大规模的数据存储。...
2022-04-06 09:33:31
13586
原创 【数据治理】数据湖治理实践:腾讯云数据湖元数据实践指南
最近数据湖非常的火,但是一旦没弄好,就会变成“数据沼泽”。如何避免“数据湖”变成“数据沼泽”呢?最好的办法就是治理先行。
2022-04-06 09:20:21
809
原创 【Python】centos自带python2无法使用pip命令问题解决方法
[Centos7](https://so.csdn.net/so/search?q=centos7&spm=1001.2101.3001.7020)默认已经安装了python2.7,但是没有预装pip命令,所以还需要自己装pip命令,方便安装python用到的各种包。
2022-04-02 17:29:52
3973
原创 基于 Flink SQL 构建流批一体的 ETL 数据集成
Flink 对各个系统的数据接入能力、维度打宽能力、入仓/入湖能力都已经非常完善了。在 CDC 流式读取上,Flink 已经支持了主流的数据库和 Kafka 消息队列。在数据湖方向,Flink 对 Iceberg 的流式读取和 CDC 写入的功能也即将在接下来的 Iceberg 版本中发布。从这个能力矩阵可以看出,Flink 的数据集成能力是非常全面的
2022-04-02 17:26:08
870
原创 【数据治理】数字治理的效度、温度、 尺度
近三十年来,数字技术迅猛发展,由此生成的数据也在数量、颗粒度、实时性和多样性等方面迅速提升,为人类的政治、经济和社会生活的方方面面带来了巨大改变。**数字治理也得到了许多国家的高度重视和大力推进,实践者和学术界对于通过利用数字技术提升政府效率效能、优化公共政策制定、提高公共服务水平、扩大公众参与、推进制度转型等方面的前景充满了期待,刻画了各种美好的“未来图景”。...
2022-04-02 16:58:30
3298
原创 【数据治理】电力行业数据治理解决方案
本篇从**组织,管理,技术,执行**四个部分构建数据治理体系。主要内容如下。第一部:**现状问题目标**价值****,分析了数据治理的现状,没有体系,缺少标准,数据质量太差以及这些现状导致的问题,根据这些问题推导出数据治理的目标,如果实施数据治理的意义和价值 。 第二部:**数据治理体系架****构,**分别从组织,管理,技术,执行四个部分构建数据治理体系。第三部**:标准化管理,**标准化的定义,制定原则,落地原则,工作步骤 ,实施策略,实施策略,指标体系示例(电力)等第四部分:**元数...
2022-04-02 16:55:55
4154
转载 【数据治理】数据治理8种方法
个人觉得这8种方法中监管驱动法和利益驱动法是最常见的,也是一直在治,但只能局部治理的方法,未来是数字时代,必须体系构建(顶层设计)+价值驱动(利益驱动法)+技术支撑(技术推动法)+如果再有监管强制治理...
2022-04-02 16:51:50
30978
12
原创 【数据治理】浅谈数据治理
近年来,数据治理成为挖掘数据价值的重要手段和工具。随着大数据平台和工业互联网兴起,数据治理平台主要采用数据中台技术和微服务架构初步替代传统架构,面向大数据架构下,为数据资源中心与外部数据系统提供数据服务。那么,数据治理到底治什么?...
2022-04-02 16:46:21
1286
原创 【数据治理】行业数据治理实践
相当不错的一篇模态数据治理文档推荐给大家,希望对大家有帮助。本篇总共5部分,从DG背景开始,DG流程化,DG自动化,DG智能化逐步递进,以及DG的应用和对未来的趋势预判。
2022-04-02 16:43:49
218
原创 【数据治理】终于有人把数据安全治理讲明白了
数据安全治理是通过制定数据安全策略和流程来保护企业数据,涉及数据、业务、安全、技术、管理等多个方面
2022-04-02 16:32:09
22463
原创 【数据治理】数据治理之元数据管理的利器——Atlas入门宝典
随着数字化转型的工作推进,数据治理的工作已经被越来越多的公司提上了日程。作为Hadoop生态最紧密的元数据管理与发现工具,Atlas在其中扮演着重要的位置。但是其官方文档不是很丰富,也不够详细。所以整理了这份文档供大家学习使用。 ...
2022-04-02 16:29:28
1642
原创 Idea 配置Groovy环境
近期在使用Streamsets中使用到了Groovy Evaluator组件,但是sdc中调试Groovy不方便,索性就在Idea中调试,在此分享一下在Idea中如何配置Groovy环境。
2022-04-02 14:11:24
8803
原创 中国数据治理现状调研报告(2021)
为掌握国内数据治理的实际现状,CIO时代于 2021年 9月开展数据治理调研工作。通过调研各单位数据治理现状,以及数据治理工作的难点、痛点,结合相关专家和企业的访谈,力争全面客观的描绘国内数据治理在技术、管理、人才等方面的现状、发展趋势,深度分析国内数据治理面临的共性问题,并尝试提出相应的解决方法,希望借此推动国内数据治理工作的开展。
2022-02-24 16:19:40
1425
原创 【数据治理】2021年 中国数据治理行业:全链产业图谱梳理
数据治理是数据管理的延伸和进阶,集成不同数据治理工具, 构建数据中台,建设全域数据治理是趋势中的发展路径,在各行业和政府的数据治理招标项目中,甲方的痛点在于自身对数据治理的认知比较浅显,对项目实施细则和后续运维工作都不清晰,与数据治理厂商存在信息不对称。通过溯源厂商布局数据治理的路径,以在趋于数据治理产品同质化的市场中,发现厂商数据治理提供的服务和技术所倚重领域,解决甲方选标痛点。...
2022-02-24 15:26:32
2166
原创 【SDC】StreamSets实战之路-28-实战篇- 使用StreamSets实时采集指定数据目录文件并写入库Kudu
本篇文章主要介绍通过StreamSets实时的方式读取本地的数据文件,通过解析处理将文件中的内容写入到Kudu中。
2022-02-22 16:02:44
468
原创 【Hudi】Apache Hudi 设计与架构最强解读
Apache Hudi(简称:Hudi)使得您能在hadoop兼容的存储之上存储大量数据,同时它还提供两种原语,使得除了经典的批处理之外,还可以在数据湖上进行流处理。这两种原语分别是:
2022-02-22 15:31:10
1020
1
【精品】Kubernetes 管理复杂异构应用在端点Dice平台中的实践-19.9.pdf
2022-06-26
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅