李孟聊人工智能
独立开源软件开发者,SolidUI作者。老程序员,老扑街作者,依然奋战在开源一线,依然继续写文章。
展开
-
开源数据中台目录汇总
开源数据中台原创 2022-11-16 17:57:42 · 1128 阅读 · 3 评论 -
Apache Linkis Committe入选感言
从业十年,主要从事过两个行业金融和开源商业大数据基础平台,专注大数据计算和AI平台研究,热爱开源,积极参与WeDataSphere社区共建,CSDN博客专家,CSDN课程签约讲师。原创 2023-03-14 19:30:32 · 191 阅读 · 0 评论 -
DSS 部署环境需求清单
例如只使用spark、hive、python、flink引擎且单用户最高并发数为1的情况下,同时使用人数50人,Spark的Driver内存1G,Hive Client内存1G,python client 1G,每个引擎都使用1个核,那么就是 50 *(1+1+1+1)G * 1 + 50 *(1+1+1+1)核*1 = 200G 内存 + 200 CPU核数。同时在线人数 * (所有类型的引擎占用内存) *单用户最高并发数+ 同时在线人数 * (所有类型的引擎占用内存) *单用户最高并发数。原创 2023-03-03 16:35:12 · 2615 阅读 · 2 评论 -
信创生态下运维Linkis
信创产业推进的背景在于,过去中国IT底层标准、架构、产品、生态大多数都由国外IT商业公司来制定,由此存在诸多的底层技术、信息安全、数据保存方式被限制的风险。如果我们要做自主可控的信创应用,一个比较可选的方式,是在开源项目基础上进行改造,不是简单的代码组装,首先要各个组件高度专业化和相对标准化,其次要有完整的源代码,最后是扎实的测试和实际应用。信创产业的每个人的岗位层级不同,就出现责任心、使命感的不同程度的不同,这个回归到战略管理层面,需要高层推动。物料没有大的改动,一些脚本有点修改,容器化部署。原创 2022-11-13 11:06:30 · 528 阅读 · 0 评论 -
数据中台导读
我希望通过这些篇幅把中台通用的一些方法论和落地服务整合到一块了,中台可以说是争议很大,可以说每个企业都有自己一套业务标准,平台化后落地集成自己的特色中台,但是对于大数据而言,业务数据化,数据业务化,必然会有通用大数据平台服务,这是不能否认的,架构是得在业务发展的前方,实现更好的生产,为了让数据人或价值发声,向前走一大步,数据中台的实践就在每个企业员工手中,可以让每个人都能梳理技术落地方案出来,这是我的目的。对整个体系影响程度,对数据架构的影响程度?数据治理,到底怎么治理,跟服务治理,引擎治理,有什么联系?原创 2022-11-06 01:56:52 · 802 阅读 · 0 评论 -
Linkis thrift 需求文档
Kyuubi引擎的实现逻辑和 Spark Thrift Server 如出一辙,不同的是它可以通过client/cluster模式提交,IP和端口都是随机的,所以额外加上了做服务发现的客户端,用于将自己暴露给Server和对应的租户。在具体的实现上,针对连接请求,我们在 Server 端裂变成了两类操作,一个是引擎类型的操作,包括发现逻辑和新建逻辑,这为多应用提供了基础。一个Server的服务组件,它会监听指定的端口来对外提供服务,主要基于Thrift实现的rpc服务。原创 2022-11-06 01:54:30 · 345 阅读 · 0 评论 -
Exchangis1.0演讲稿
数据交换原创 2022-08-23 10:56:20 · 497 阅读 · 0 评论 -
DSS Dockerfile 单体
DSS Dockerfile原创 2022-08-18 16:55:58 · 255 阅读 · 0 评论 -
DSS 启动关闭脚本
DSS启动关闭脚本原创 2022-08-16 10:25:16 · 145 阅读 · 0 评论 -
Linkis数据处理实战_ApacheCon_Asia演讲稿
Linkis数据处理实战_ApacheCon_Asia原创 2022-07-22 17:40:42 · 301 阅读 · 0 评论 -
DataSphereStudio平台集成
DataSphere Studio(简称 DSS)是微众银行自研的数据应用开发管理集成框架。 基于插拔式的集成框架设计,及计算中间件 Linkis ,可轻松接入上层各种数据应用系统,让数据开发变得简洁又易用。 在统一的 UI 下,DataSphere Studio 以工作流式的图形化拖拽开发体验,将满足从数据交换、脱敏清洗、分析挖掘、质量检测、可视化展现、定时调度到数据输出应用等,数据应用开发全流程场景需求。 ...原创 2022-07-08 11:37:33 · 611 阅读 · 0 评论 -
linkis 结果集
一.简介 Linkis面临将多种类型的数据存储到文件里面的需求,如:将Hive表数据存储到文件,并希望能保存字段的类型、列名和comment等元数据信息。 二.Storage存储多种文件系统 三.结果集-Parquet 3.1 Parquet 组成 Parquet仅仅是一种存储格式,它是语言、平台无关的,并且不需要和任何一种数据处理框架绑定,目前能够和Parquet适配的组件包括下面这些,可以看出基本上通常使用的查询引擎和计算框架都已适配,并且可以很方便的将其它序列化工具生成的数据转换成Parquet格式原创 2022-01-13 13:36:27 · 1288 阅读 · 0 评论