
大数据平台架构设计
文章平均质量分 77
常耀斌
CTO,AI科学家。2024年,清华大学出版社发行《大数据架构之道和项目实战》《AI赋能企业数字化转型》《深度学习和大模型实战》
展开
-
大数据基础中台-数据仓库建设
一、数据模型架构原则数仓分层原则优秀可靠的数仓体系,往往需要清晰的数据分层结构,即要保证数据层的稳定又要屏蔽对下游的影响,并且要避免链路过长。那么问题来了,一直在讲数仓要分层,那数仓分几层最好?目前市场上主流的分层方式眼花缭乱,不过看事情不能只看表面,还要看到内在的规律,不能为了分层而分层,没有最好的,只有适合的。分层是以解决当前业务快速的数据支撑为目的,为未来抽象出共性的框架并能够赋能给其他业务线,同时为业务发展提供稳定、准确的数据支撑,并能够按照已有的模型为新业务发展提供方向,也.转载 2021-11-12 14:16:47 · 1110 阅读 · 0 评论 -
构建数据中台建设之路
OneData致力干统一数据标准,让数据成为资产而非成本;OneEntity致力于统一实体,让数据融通而以非孤岛存在;OneService致力于统一数据服务,让数据复用而非复制。 OneData就是数据的标准化治理,OneEntity就是PID系统+用户画像,OneService就是封装的数据中台API原创 2021-09-17 13:55:33 · 806 阅读 · 0 评论 -
数据计算技术的归纳
数据汇聚:是数据中台必须提供的核心工具,把各种异构网络、异构数据源的数据方便地采集到数据中台中进行集中存储,为后续的加工建模做准备。数据汇聚方式一般有数据库同步、埋点、网络爬虫、消息队列等;从汇聚的时效性来分,有离线批量汇聚和实时采集。企业内部的存储计算引擎呈多元化趋势。离线开发中心针对每种类型的计算引擎会开发不同的组件,例如,针对Oracle开发Oracle插件,针对Hadoop体系分别开发出Hive、Spark、MR等插件。用户在界面新建各种作业类型,在执行时自动根据作业的类型寻找相应的插件来运行作原创 2021-07-07 19:26:49 · 1135 阅读 · 2 评论 -
数字化转型系列:业务中台和数据中台架构解析
目标:1.通过对行业中大型项目需求实例分析,掌握需求定义、捕获、分析与建模、需求 描述、需求验证理论和实践方法,能够有效地在软件生命周期中管理需求;2.应用有效的需求管理技术,生成清晰的产品需求;3.使用用例建模技术捕获并记录需求;4.建立文档分层结构和产品的不同层次需求的标准;5.使用属性和可追踪性,在整个生命周期内管理需求范围和变更;6.理解需求如何驱劢设计、测试和用户文档活劢;UML用例图用例:Actor参与者/User Case用例-功能/Relationship关系.原创 2020-09-30 13:22:15 · 2070 阅读 · 0 评论 -
Elasticsearch的核心原理
大数据下检索?如:当系统数据量上了10亿、100亿条的时候,我们在做系统架构的时候通常会从以下角度去考虑问题:1)用什么数据库好?(mysql、sybase、oracle、达梦、神通、mongodb、hbase…)2)如何解决单点故障;(lvs、F5、A10、Zookeep、MQ)3)如何保证数据安全性;(热备、冷备、异地多活)4)如何解决检索难题;(数据库代理中间件:mysql-pr...原创 2020-04-17 20:49:38 · 6445 阅读 · 4 评论 -
深入分析高并发框架Mina和Netty的内存模型差异
Mina和Netty的区别这样来看:Mina:开发高性能和高可用性的网络应用程序的基础框架。 Netty:开发高性能和高可用性的网络应用程序的基础框架。 内存分配方式:HeapByteBuffer和DirectByteBuffer分配。 线程模型:分析的数据集生成,数据处理,数据建模,数据预测,数据模型调优。MINA是用于开发高性能和高可用性的网络应用程序的基础框架 通过使用MINA框...原创 2019-03-15 11:20:03 · 2467 阅读 · 0 评论 -
IDEA构建spring boot项目
Spring Boot可以轻松创建可以运行的独立的,生产级的基于Spring的应用程序。我们对Spring平台和第三方库进行了一种自以为是的观点,这样您就可以轻松上手了。大多数Spring Boot应用程序只需要很少的Spring配置。您可以使用Spring Boot创建可以使用java -jar或更传统的war部署启动的Java应用程序 。我们还提供了一个运行“spring脚本”的命令行工具...原创 2019-02-01 15:17:33 · 348 阅读 · 0 评论 -
Spark技术框架对比Hadoop框架
Spark对MapReduce做了大量的改进和优化,主要包括以下个方面:1)磁盘I/O的读写优化:中间结果缓存在内存中:随着实时大数据应用越来越多,Hadoop作为离线的高吞吐、低响应框架已不能满足这类需求。Hadoop MapReduce的map端将中间输出和结果存储在磁盘中,reduce端又需要从磁盘读写中间结果,从而造成磁盘I/O成为瓶颈。Spark则允许将map端的中间输出和结果缓...原创 2019-02-27 15:34:56 · 556 阅读 · 0 评论 -
新浪微博平台的多级架构
新浪微博在2014年3月公布的月活跃用户(MAU)已经达到1.43亿,2014年新年第一分钟发送的微博达808298条,如此巨大的用户规模和业务量,需要高可用(HA)、高并发访问、低延时的强大后台系统支撑。微博平台第一代架构为LAMP架构,数据库使用的是MyIsam,后台用的是php,缓存为Memcache。随着应用规模的增长,衍生出的第二代架构对业务功能进行了模块化、服务化和组件化,后台...原创 2019-02-27 20:39:20 · 1478 阅读 · 0 评论 -
大型分布式服务的主要技术攻关问题总结
大型项目常见问题总结业务发展快,代码规模爆发 接口定义不规范 业务耦合紧密 共用数据库,导致读写效率低和维护成本高 耦合第三方业务,比如支付和小视频等 数据库设计混乱技术挑战服务技术挑战::基于Dubbo分布式服务设计 实时业务分析:基于Storm实时统计分析 数据库服务 OLTP挑战:逻辑读总量与计算函数(解决方案:需要尽量避免计算过程,),磁盘单块读(解决方案:Cache技...原创 2019-01-16 16:51:59 · 859 阅读 · 0 评论 -
OpenStack的架构详解(深度解析)
OpenStack的架构详解1. OpenStack概要介绍OpenStack既是一个社区,也是一个项目和一个开源软件,它提供了一个部署云的操作平台或工具集。其宗旨在于,帮助组织运行为虚拟计算或存储服务的云,为公有云、私有云,也为大云、小云提供可扩展的、灵活的云计算。OpenStack旗下包含了一组由社区维护的开源项目,他们分别是OpenStackCompute(Nova),OpenS...原创 2019-01-10 10:51:51 · 4744 阅读 · 0 评论 -
大数据培训的核心竞争力和企业项目实战分析
大数据培训的前景和现状分析大数据培训的国家发展战略支持大数据培训的核心技术栈分析项目实战引领技术培训原创 2019-01-13 13:19:23 · 411 阅读 · 0 评论 -
大型网站系统设计架构深入分析
我的研发实践中,组件框架设计应该采用分层设计模型,组件采用递归结构。每个框架不能依赖其他框架而存在,应该能够独立开发和部署。组件和组件之间,组件和框架之间只能通过API通讯。将组件框架应该再细分成表现层框架、业务层框架、数据层框架、公共服务框架、基础框架、系统框架和与业务系统密切相关的业务框架等构成,除了具体的业务框架外,其他框架必须优先选择比较成熟的产品和免费框架。 组件是事先...原创 2019-01-13 13:09:52 · 622 阅读 · 0 评论 -
2018年物联网大数据架构演进分析
感知层:主要分为两类,自动感知设备:能够自动感知外部物理信息,包括RFID,传感器,智能家电等;人工生成信息设备:包括智能手机,个人数字助理(PDA)、计算机等。 网络层:网络层又称为传输层,包括接入层、汇聚层和核心交换层。 接入层相当于计算机网络的物理层和数据链路层,RFID标签、传感器与接入层设备构成了物联网感知网络的基本单元。接入层网络技术分为无线接入和有线接入,无线接入有无线局域网...原创 2019-01-05 12:38:03 · 2088 阅读 · 3 评论 -
2018年车联网大数据架构演进分析
物联网终端通过无线/有线网络发送到平台,经过一系列的处理后存入到各种存储引擎中,业务可以通过数据交换接口来访问处理后的数据。具体流程如下: 车载设备或者传感器设备通过网络经过LVS/F5负载均衡将数据发送至网关; 网关接收到数据后进行公共协议解析,然后把解析后的数据发给Kafka,存放在原始数据Topic; 实时计算任务从原始数据Topic中读取数据经过数据清洗后...原创 2019-01-05 12:30:25 · 3574 阅读 · 2 评论 -
2018年医疗大数据系统演进架构图解
海量的医疗大数据来自于各个业务信息子系统,数据的标准化程度低,在完成数据收集之后,随后就面向后续的数据的清洗和加工步骤。如何把这些海量数据按照统一的标准进行清洗,是很多行业和企业现在面对的最大困境。阿里数据中台为的数据ODS 层设计包含了三个特性:其一是数据同步功能,支持结构化数据增量或全量同步到ODPS;其二是实现全结构化数据转换,能够将非结构化数据(如日志)进行结构化处理后再存储;其三...原创 2019-01-05 12:25:20 · 5791 阅读 · 1 评论 -
某知名支付系统的架构演进权威分析
知名支付系统自2011年搭建以来,在五年的时间里逐渐从一个高耦合的单一系统发展为众多子系统组成的高并发、高可用、支持多种交易支付业务的分布式系统。业务从最初的非代收到现在多种非代收、代收场景的支持,B2B业务的从无到有,支付方式从单一网银支付到现在银行卡、拿去花、代金券、红包、立减、积分、趣游宝等多种的组合,订单从单笔支付到多个订单同时支付和多次付款。下面对整体的演变过程进行简单的介绍。一个支...原创 2019-03-02 12:08:00 · 1308 阅读 · 0 评论 -
支付系统的平台架构分析和思考
支付系统从架构上来说,分为三层;支撑层: 用来支持核心系统的基础软件包和基础设施, 包括运维监控系统、日志分析系统等。核心层: 支付系统的核心模块,内部又分为两个部分: 支付核心模块以及支付服务模块。产品层: 通过核心层提供的服务组合起来,对最终用户、商户、运营管理人员提供的系统。支付基础设施支撑系统是一个公司提供给支付系统运行的基础设施。 主要包括如下子系统:运维监控: 支付系统...原创 2019-03-14 11:02:12 · 2842 阅读 · 0 评论 -
一流项目历练大专家,核心技术挑战新高度
2019年,是国家大力发展大数据和人工智能产业的关键一年,需要更多中高端大数据人才助力,尤其是从事大数据相关专业领域的工程师,要迅速响应国家战略发展方向,我们必须要从事有核心技术的高质量项目,来提升和历练自己的核心竞争力!尤其在核心知识机构开始快速更替的关键时刻,掌握大数据和人工智能的核心项目从业者已经炙手可热,如何找到合适的顶级规模的项目来历练自己? 围绕国家大数据战略实施要求...原创 2019-03-10 14:04:11 · 990 阅读 · 0 评论 -
数据中台的深入思考
阿里巴巴的数据处理经历了四个阶段,分别是:数据库阶段,主要是OLTP(联机事务处理)的需求; 数据仓库阶段,OLAP(联机分析处理)成为主要需求; 数据平台阶段,主要解决BI和报表需求的技术问题; 数据中台阶段,通过系统来对接OLTP(事务处理)和OLAP(报表分析)的需求,强调数据业务化的能力。第一个阶段是数据库阶段。淘宝还只是一个简单的网站,淘宝的整个结构就是前端的一些页...原创 2019-10-09 14:15:47 · 1901 阅读 · 1 评论 -
Drools的技术分析
1 业务分析1.1 现状在很多行业应用中比如银行、保险领域,业务规则往往非常复杂,并且规则处于不断更新变化中,而现有很多系统做法基本上都是将业务规则绑定在程序代码中。1.2 问题主要存在的问题有以下几个方面:1) 当业务规则变更时,对应的代码也得跟着更改,每次即使是小的变更都需要经历开发、测试验证上线等过程,变更成本比较大。2) 长时间系统变得越来越难以维护。3) 开发...原创 2019-08-02 08:59:01 · 1008 阅读 · 0 评论 -
数据中台的崛起
广义的数据中台包括了数据技术,比如对海量数据进行采集、计算、存储、加工的一系列技术集合;但核心的数据中台与广义理解相比,要更往上走。它主要包括数据模型,算法服务,数据产品,数据管理等层面问题,这些服务跟企业的业务有较强的关联性;数据中台要回归服务本质,也就是说要以服务为导向。——服务对象是谁?笼统的讲师业务,细化的剖析则为数据模型、数据服务和数据开发。在这个能力范畴域,统一的基础模型将...原创 2019-07-29 22:36:45 · 852 阅读 · 0 评论 -
敏捷开发的角色和职责阐述
敏捷开发中的PO即Product Owner,产品或业务负责人,即熟悉该产品所有业务相关的逻辑、流程、设置等方面事宜的人员,一般可由产品经理担任,也可由熟悉业务的开发人员担任。如果敏捷团队是在一起办公的,建议由产品经理担任,本身产品经理已经是所有业务的接口人,熟悉业务是其本职工作;如果产品经理和开发、测试团队是两地办公的,如设立的研发中心、外包服务等形式的,建议在开发团队内指定一个人来担任...原创 2019-05-18 18:58:21 · 2756 阅读 · 0 评论 -
资深技术专家分享:大数据实时计算微服务引擎总结
总结《大数据架构之道和项目实战》第七章:学习目标掌握分布式采集服务Flume部署及数据采集 掌握分布式消息服务Kafka部署及数据发送 掌握Hbase数据库设计和Spark集群环境构建 掌握Spark连接Kafka的两种方式 掌握Scala的基本语法和常用算子 掌握Spark中Job的执行流程 掌握Spark的Shuffle过程 掌握Spark解决数据倾斜的几种方式和原理 掌...原创 2019-05-18 18:45:01 · 1285 阅读 · 0 评论 -
数据科学家的技术栈分享:大数据高并发采集微服务引擎
学习并总结:清华出版社发行的《大数据架构之道和项目实战》第一章 常耀斌著学习目标掌握Spring是什么,它解决了什么问题 掌握Spring,Spring MVC和Spring Boot的联系,区别 掌握基于Spring Boot和Spring MVC的高并发采集微服务的构建 掌握Maven与Eclipse的集成配置5、掌握Mina框架的工作原理和实战技巧6、掌握组合、迭代、策略、...原创 2019-05-11 14:29:04 · 1353 阅读 · 2 评论 -
资深大数据/AI专家:大数据知识图谱-实战经验总结
作为数据科学家,我想把行业最新知识图谱总结并分享给技术专家们,让大数据知识真正转化为互联网生产力!大数据与人工智能、云计算、物联网、区块链等技术日益融合,成为全球最热的战略性技术,给大数据从业者带来了前所未有的发展机遇,同时也对大数据工程师提出了高标准的技能要求。大数据具有海量性、多样性、高速性和易变性等特点,映射到大数据平台建设要求,不仅要具备海量数据采集、并行存储、灵活转发、高效调用...原创 2019-05-02 21:58:07 · 5616 阅读 · 1 评论 -
大数据在电子商务的的五大发展趋势分析
新技术驱动电子商务融合原创 2019-03-31 11:43:54 · 4845 阅读 · 0 评论 -
SpringMVC框架升级为SpringBoot的案例图解
存储端maven版本和spring-boot版本区别Maven版本的mongodb.properties以及mongodb.xml在boot版本已删除,取代的是在boot的核心配置文件中增加在boot版本中新增springboot的启动加载类以及hbase的配置类删除了maven版本关于hbase的配置文件hbase.xml以及hbase-site.xm...原创 2019-03-19 09:28:48 · 3569 阅读 · 0 评论 -
数据科学家分享:“大数据全栈技术与商用平台架构设计之路”
各位好: 回首10年多的科研工作历程,也是中国经济高速发展的10多年,中国高铁、核电、航空、互联网、云计算、大数据、人工智能等领域无不铭刻着“中国名片”,这就是科技是第一生产力的实践验证!12年前,获得北邮计算机工学硕士后信心满满的踏上了科研之路,一干就是十多年,有苦有泪有艰辛,但收获的是一种为国防科技发展能奉献和敢担当的责任感。今天,更一次站在了移动互联网这个朝阳产业的跑道上,和诸多大...原创 2019-03-19 14:43:42 · 7075 阅读 · 17 评论 -
互联网医疗大数据类型的深度分析
医疗大数据类型医疗大数据分类电子病历数据这是患者就医过程中所产生的数据,包括患者基本信息、疾病主诉、检验数据、影像数据、诊断数据、治疗数据等,这类数据一般产生及存储在医疗机构的电子病历中,这也是医疗数据最主要的产生地。电子化的医疗病历方便了病历的存储和传输,但是并未达到进行数据分析的要求。大约80%的医疗数据是自由文本构成的非结构化数据,其中不仅包括大段的文字描述,也包括包含非统...原创 2019-01-05 12:18:38 · 19778 阅读 · 1 评论 -
2018年医疗大数据产业的发展及解决方案
医疗大数据产业背景分析 近年来,健康医疗大数据相关产业已经被列入国家大数据战略布局,和医疗健康大数据相关的政策频出。在众多健康医疗大数据相关政策中,其中比较著名的是2014 年国家卫计委制定“46312”工程,即建设国家级、省级、地级市、县级4 级卫生信息平台,构建电子监控档案数据库、电子病历数据库、全员人口个案数据库3 个数据库,建立一个安全的卫生网络,加强卫生标准体系和安全体系建设。...原创 2019-01-05 12:04:05 · 25901 阅读 · 1 评论 -
分布式架构演进分析
分布式和集群的关系分布式:一个业务分拆多个子业务,部署在不同的服务器上集群:同一个业务,部署在多个服务器上分布式架构的里程碑 大型主机的出现。凭借着大型机超强的计算和I/O处理能力、稳定性、安全性等,在很长一段时间内,大型机引领了计算机行业及商业计算领域的发展。而集中式的计算机系统架构也成为了主流。随着计算机的发展,这种架构越来越难以适应人们的需求,比如说由于大型主机的复杂性...原创 2018-09-28 10:57:06 · 492 阅读 · 0 评论 -
灵活转发服务知识图谱
原创 2018-09-19 15:04:02 · 359 阅读 · 0 评论 -
高并发采集服务知识图谱
1.基于TCP/HTTP的知识图谱原创 2018-09-19 14:29:08 · 510 阅读 · 0 评论 -
海量存储服务核心知识图谱
1.海量存储服务知识点原创 2018-09-19 14:24:04 · 396 阅读 · 0 评论 -
通用接收服务核心知识图谱
大数据采集知识点总结原创 2018-09-19 14:22:56 · 298 阅读 · 0 评论 -
大数据平台技术架构和微服务建设
原创 2018-07-30 17:07:52 · 3364 阅读 · 0 评论 -
大数据之云平台的安全框架构建方法
原创 2018-08-22 09:59:36 · 827 阅读 · 0 评论 -
构建高可用性分布式系统的解决方案
技术要求:架构,核心技术,难点;具体方案如下:应用的分布式架构SpringBoot SpringCloud Mybatis Druid应用的分布式事务JTA Atomikos业务解耦观察者模式 分层/分业务等权限Shiro 数据库的读写一致性设计模式 中间件数据库的分布式设计HDFS MongoDB Redis平台云化解决方案设计 ...原创 2018-08-29 17:23:19 · 475 阅读 · 0 评论 -
医疗大数据平台的标准化通迅协议构建和架构
2006 年 6 月,英特尔联合多家全球领先的技术公司、医疗机构及保健器材公司共同成立了“康体佳健康联盟”(Continua Health Alliance)。作为一个开放性的行业组织,“康体佳健康联盟”致力于建立一个由高度互通的个人健康、医疗产品与医疗服务机构所组成的生态系统,从而更好地满足患者、医护人员以及医疗产品提供商的不断增长的健康保健需求。 2010 年 8 月 20 日,由中国...原创 2018-08-31 09:29:20 · 1555 阅读 · 0 评论