5.数据中台 --- 数据汇聚联通:打破企业数据孤岛

第5章 数据汇聚联通:打破企业数据孤岛
	要构建企业级的数据中台,第一步就是要让企业内部各个业务系统的数据实现互联互通,从物理上打破数据孤岛,这主要通过数据汇聚和交换的能力
来实现。在面向具体场景时,可以根据数据类型将汇聚对象分为结构化和非结构化、大文件和小文件、离线与在线等几种。

5.1 数据采集、汇聚的方法和工具
	1.线上采集行为
		线上采集的主要载体可以分为传统互联网和移动互联网两种,对应的形态有PC系统、PC网页、H5、小程序、App、智能可穿戴设备等。在技术
	上,数据采集主要有客户端SDK埋点和服务端SDK埋点等方式。	
		1.客户端埋点
			a)全埋点
				将终端设备上用户的所有操作和内容都记录并保存下来,只需要对内嵌的SDK做一些初始化配置就可以实现收集全部行为的目的。
			这也经常被称为无痕埋点、无埋点。

			b)可视化埋点
				将终端设备上用户的一部分操作,通过服务端配置的方式有选择性的记录并保存。

			c)代码埋点
				根据需求来定制每次的收集内容,需要对相应的终端进行升级。

		2.服务端埋点
			通过在系统服务器端部署相应的数据采集模块,将这部分数据作为行为数据进行处理和分析。常见的形态有HTTP服务器的access_log。

	2.线下采集行为
		线下行为数据主要通过一些硬件采集,如常见的Wi-Fi探针、摄像头、传感器等。通过Wi-Fi信号采集周边移动设备是之前比较常用的方式,
	其主要原理是通过信号探测的协议,当热点附近的移动设备在探测SSID时,会建立网络连接,从网络协议中获取手机的网络设备号。

	3.互联网数据采集
		网络爬虫常用来做网站的自动化测试和行为模拟。

	4.内部数据汇聚
		从数据组织形式来分,数据主要分成三类:
			1.结构化数据
				能通过二维逻辑来表现的数据,如数据库、excel等二维表。
			2.半结构化数据
				数据规则完整,同样严格遵循数据格式与长度规范,但无法通过二维逻辑来表现,如json、xml等形式表达的复杂数据。
			3.非结构化数据
				数据结构不规则或者不完整,不方便用二维逻辑表来表现,需要经过复杂的逻辑处理才能提取其中的信息内容,如图片、音频等。

		从时效性和应用场景来分,数据汇聚可以分成离线和实时两类:
			1.离线
				主要用于大批量数据的周期性迁移,对时效性要求不高,一般采用分布式批量数据同步的方式,通过连接读取数据,读取数据过程中
			可以有全量、增量的方式,经过统一处理后写入目标存储。
			2.实时
				主要面向低延时的数据应用场景,一般通过增量日志或者通知消息的方式实现,如通过读取数据库的操作日志来实现相应的实时处理,
			业界常见的Canal、MaxWell、StreamSets、NiFi等框架和组件。


		在数据建设过程中有ETL(Extract-Transform-Load,抽取 - 转换 - 存储)的操作,即在数据抽取过程中进行数据的加工转换,然后加载
	至存储中。但在大规模数据场景下,一般不建议采取ETL的方式,建议采用ELT(Extract - Load - Transform,抽取 - 存储 - 转换)的模式,
	即将数据抽取后直接加载到存储中,再通过大数据和人工智能相关技术对数据进行清洗和处理。如果采用ETL的模式在传输过程中进行复杂的清洗,
	会因为数据体量过大和清洗逻辑的复杂性导致数据传输的效率大大降低。另一方面,ETL模式在清洗过程中只提取有价值的信息进行存储,而是否有
	价值是基于当前对数据的认知来判断的,由于数据的价值会随着我们对数据的认知以及数据智能相关的技术的发展而不断被挖掘,因此ETL模式很容易
	出现一些有价值的数据被清洗掉,导致当某一天需要用这些数据的时候,又需要重新处理,甚至数据丢失无法找回。相比存储成本,这种损失更大。

		优秀的开源汇聚工具:
			1.Canal
				Canal Server 模拟 mysql slave的交互协议,伪装自己为mysql的slave向master发送dump协议,master收到请求后开始
			推送binlog,canal解析byte流产出解析后的增量数据。优点是,流程结构非常清晰,部署和配置相对简单,同事可以做额外的配置
			管理、开发改造的工作。canal的缺点是 server中Instance和Client之间是一对一的消费,不太适用于多消费和数据分发的场景。

			2.Sqoop
				Sqoop 是目前市面上相对通用的一种解决方案,是在结构化数据和HDFS之间进行批量数据迁移的工具。整体框架已Hadoop为核心,
			底层使用MaxReduce程序实现,MapReduce天生的特性保证了并行化和高容错率。

			3.DataX
				DataX 是阿里巴巴开源的一套插件式离线数据交换工具,以实现各种异构数据源之间的高效数据交换为目标而设计。


5.2 数据交换产品
		相应的交换任务调度及状态要能够有效的与上下游形成依赖,借助统一的调度的能力构建数据作业流。

		数据交换中心的首要目的是 屏蔽底层工具的复杂性,以可视化配置的方式提供给企业用户;其次需要考虑,为了解决数据孤岛,需要满足异构
	存储、异构数据类型的交换需求;同时,还要考虑不同失效要求下的数据互通。因此,数据交换平台需要屏蔽系统底层协议、传输安全、特性组件等
	信息,让开发人员在数据接入过程中无需关注数据格式转换、数据路由、数据丢失等,只需要关注与业务本身的数据交换部分。企业信息化建设的
	多种数据源类型,可以通过同步模块的数据源进行统一管理,方便用户快速通过可视化页面执行数据汇聚工作。

		1.数据源管理
			数据源管理主要是管理数据所用的存储,用于平台在做数据交换时,可以方便的对外部存储进行相应的管理。数据源可以是已有系统存储
		业务数据的地方,作为数据中台的数据来源,也可以是数据应用场景,为应用场景提供结果数据存储的地方。

			根据业务系统以及数据应用场景的不同,数据源也有不同的选择。例如,广告场景对实时性要求很高,相应的,对数据源
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值