自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 收藏
  • 关注

原创 大数据应用对企业的价值

大数据是新的技术生态,技术就是工具,工具就是用来解决问题;对于已有的应用场景,大数据技术提供新的解决方案;对于大数据技术优秀的性能,可以构建新的业务需求;上文提到的应用和应用价值只是思考方向,对于更多的可能性,需要从真实应用需求中挖掘。

2024-02-08 09:58:45 1937 1

原创 大数据企业应用场景分析

大到企业,小到业务团队,都有可落地的大数据应用场景,可以和需要是两回事,有价值才需要;从价值角度,评估业务数据的情况,数据大量级、性能高要求都是大数据技术的适用场景。引入大数据技术,从数据分析、智能推荐、产品功能优化、异常检测、智能管理、人工智能和机器学习应用的视角,评估业务的必要性,再规划资源落地,尽量少走弯路。本章为下一章分析大数据应用的价值做铺垫。

2024-02-05 15:13:21 1471 1

原创 DolphinScheduler数仓任务管理规范

在使用DolphinScheduler做数仓任务管理时,数据建模分层落地到调度上缺少规范,社区用户用起来比较乱,这造成了数据管理困难和异常容错繁琐等痛点,本文基于数仓数据建模标准的方法论,构建一套用于DolphinScheduler管理数据建模任务的规范,避免以上痛点。

2024-02-01 15:58:32 1749 1

原创 使用Neo4j做技术血缘管理

本文基于Neo4j数据库做了应用介绍、安装、基础操作和技术血缘demo项目的实现。

2024-01-30 13:32:37 2511 7

原创 八种Flink任务监控告警方式

Flink任务告警方式的选择,要从任务的使用情况和期盼来考量;简单的使用,且任务少,可以用监控目标数据库的数据写入情况、per-job和application运行任务探活、Sesion运行方式通过RestApi来告警;特定场景的业务可以靠监控存储中间偏移量来告警;通用大规模应用场景可以通过采集运行时日志、使用调度平台,使用调度平台、引入开源SDK方式、自定义SDK写入通用系统通用系统里方式选择。

2024-01-28 19:54:19 2551 5

原创 数据建模分析与数仓维度建模规范

数据建模是将定义现实世界的数据抽象成模型的过程,以便更好的分析,管理和操作数据实现需求。数据建模在数仓管理、数据库设计、算法模型训练等领域都有着重要的作用。在不同的领域,数据建模的关注点不同:在数据库设计领域,定义数据模型,用于有效地存储和管理数据,确保数据的一致性、完整性和可维护性等;在算法领域,抽象事物特征构建数据模型,用于跑算法模型,实现线性回归预测、自动决策、神经网络训练等;在大数据领域,用于为组织提供一个集成、一致、可靠的数据存储和分析平台,以支持业务决策、数据分析和报告等。

2024-01-25 14:28:54 1930 8

原创 AI对比:ChatGPT和文心一言的区别和差异

ChatGPT和文心一言都是基于大模型驱动的AIGC产品,由于两者训练的基础数据不同,造成了两者功能和性能上的差异。本文分析了两者大模型的区别,测试了二者部分功能和性能上的差异。

2024-01-22 14:00:05 3584 18

原创 ChatGPT时代对大数据应用的展望

ChatGPT依靠训练的语言大模型,极大的提升了语言类AIGC的应用。在大数据领域,期盼的愿望是可以通过语言就能实现大数据开发到应用,将chatGPT当作自己的私人管家,大数据工作者只需要去维护解决ChatGPT运维下的系统异常就行。这将极大释放大数据领域工作者的生产力,可以将精力聚焦在更有价值的地方。

2024-01-20 18:16:00 1859 4

原创 大数据工作岗位需求分析

随着大数据需求的增多,许多中小公司和团队也新增或扩展了大数据工作岗位;但是却对大数据要做什么和能做什么,没有深入的认识;往往是招了大数据岗位,搭建起基础能力后,就一直处于重复开发和任务运维的状态;后续大数据人员也做了其他很多工作,仿佛什么都在做,就是不知道集中精力该往哪个方向努力。本文从基础大数据开发岗开始分析,思考大数据工作细分有哪些岗位,分别需要什么能力,以此来提供大数据能力发展方向参考。

2024-01-18 17:38:27 1988 1

原创 MPP架构和分布式架构的区别

对大数据的数据处理需求,当前技术方向上存在两个不同的发展路线,MPP和分布式处理。两者数据处理的基本思路都是一样的,分布式并行处理再合并结果;但由于二者在处理架构上的差异,最终产品在应用需求性能侧重也有所不同。

2024-01-15 20:11:25 2580 10

原创 Flink定制化功能开发,demo代码

本文将通过flink的DataStream模块API,以kafka为数据源,构建一个基础测试环境;包含一个kafka生产者线程工具,一个自定义FilterFunction算子,一个自定义MapFunction算子,用一个flink任务将实时读kafka并多层处理串起来;让读者体会通过Flink构建自定义函数的技巧。

2024-01-12 21:30:50 1150 6

原创 如何基于Flink实现定制化功能的开发

技术为需求服务,通用需求由开源软件提供功能,一些特殊的需求,需要基于场景定制化开发功能。而对于自定义开发功能,Flink则提供了这样的SDK接口能力。本文将从定制化功能需求分析和如何基于Flink构建定制化需求功能两个方面分享描述。

2024-01-11 21:27:08 2058 2

原创 FlinkCDC的分析和应用代码

本文将从FlinkCDC应用场景开始,然后讲述其基于Flink的实现原理和代码应用,为下一篇介绍基于Flink开发定制化引擎做铺垫。

2024-01-09 22:14:23 3155 10

原创 大数据OLAP引擎发展原因及特性分析

大数据OLAP分析能力,纯计算的有:MapReduce、SparkSql、FlinkSql,这些都是可以灵活构建在存储系统之上,拥有数据处理和分析能力;存算嵌合的组件有:Hive、Impala、Druid、kylin、ES、ClickHouse、Doris,这些都具备OLAP分析能力,实时分析还拥有实时数据API支持能力(关注QPS性能)。基于离线OLAP分析,数据处理是构建数仓的核心能力,有HIve和Doris;

2024-01-07 19:48:46 1881 2

原创 Flink任务实战优化

一个好产品,功能应该尽量包装在服务内部;对于Flink而言,无疑是做到了这一点。但是用户在使用Flink的时候,依然可以从版本的选择、代码逻辑、资源参数、业务的数据情况等方面做任务级的定制化优化;用最合理的资源使用,保障实时性、稳定性和最佳Tps的处理能力

2024-01-05 14:31:39 3691 24

原创 Flink应用介绍

Flink本身的特性是非常灵活的,基于它的性能和特性,大胆想象,利用Flink去实现、优化需求,可能会有意想不到的好效果。

2024-01-03 22:08:53 1638 2

原创 如何构建大数据指标分析系统

如何构建适合公司技术栈的大数据指标分析系统。

2024-01-02 12:01:46 1280 2

原创 2024年统一大数据应用场景的技术

中间件/大数据组件,统一特定应用场景的技术思考。

2023-12-30 08:00:00 658 3

原创 2024年大数据技术分析选型

大数据技术能做什么?对比传统技术解决了什么传统问题?大数据技术及大数据应用基础介绍。

2023-12-29 13:13:02 1691

原创 大数据技术应用思考

如何应用大数据技术,自问与讨论。

2023-12-28 17:03:17 497 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除