i7杨-CSDN博客

原创开源ChatBI : SuperSonic技术分析和使用文档

为了提高SQL的准确度，需要语义模型的规范性和可识别性。一些经验：a.模型管理，尽量拆解大宽表，不要让一个模型里存在两个含义相近的字段；b.字段和问题要一个一个增加;c.从模型字段定义的清晰度上优化解析准确度;d.字段含义需要和字段值含义匹配；

2025-03-05 15:35:01 1362

原创 CDH6.3.1安装文档

现在到安装CDH的阶段了，前两章做了liunx集群的搭建和mysql的搭建，基础准备已经做好，本文以CDH6.3.1版本开始搭建CDH；

2025-02-18 10:36:10 1084

原创 linux离线安装mysql数据库

CDH安装使用mysql存储元数据，经常在操作过程出现权限问题，以下整理了一份安装教程。

2025-02-13 09:55:12 1073

原创 linux集群搭建

搭建一个linux集群基本按我搭建经验描述的，尽量摆脱官方的正式，我最开始学习搭建的时候，很多内容一些很小没注意的就导致卡很久。社区共享，希望分享的内容能得到收藏，说明这个操作文档好用。

2025-02-10 08:21:08 1232

原创 DeepSeek在windows本地部署

最近大火的deepseek,在使用网页API交流的时候经常失败，就研究如何部署在本地，发现deepseek真的是拉低了大模型使用的门槛，部署十分简单，大家可以试试。

2025-02-07 10:50:27 4074

原创大数据应用对企业的价值

大数据是新的技术生态，技术就是工具，工具就是用来解决问题；对于已有的应用场景，大数据技术提供新的解决方案；对于大数据技术优秀的性能，可以构建新的业务需求；上文提到的应用和应用价值只是思考方向，对于更多的可能性，需要从真实应用需求中挖掘。

2024-02-08 09:58:45 2182 1

原创大数据企业应用场景分析

大到企业，小到业务团队，都有可落地的大数据应用场景，可以和需要是两回事，有价值才需要；从价值角度，评估业务数据的情况，数据大量级、性能高要求都是大数据技术的适用场景。引入大数据技术，从数据分析、智能推荐、产品功能优化、异常检测、智能管理、人工智能和机器学习应用的视角，评估业务的必要性，再规划资源落地，尽量少走弯路。本章为下一章分析大数据应用的价值做铺垫。

2024-02-05 15:13:21 1921 1

原创 DolphinScheduler数仓任务管理规范

在使用DolphinScheduler做数仓任务管理时，数据建模分层落地到调度上缺少规范，社区用户用起来比较乱，这造成了数据管理困难和异常容错繁琐等痛点，本文基于数仓数据建模标准的方法论，构建一套用于DolphinScheduler管理数据建模任务的规范，避免以上痛点。

2024-02-01 15:58:32 2035 2

原创使用Neo4j做技术血缘管理

本文基于Neo4j数据库做了应用介绍、安装、基础操作和技术血缘demo项目的实现。

2024-01-30 13:32:37 3320 7

原创八种Flink任务监控告警方式

Flink任务告警方式的选择，要从任务的使用情况和期盼来考量；简单的使用，且任务少，可以用监控目标数据库的数据写入情况、per-job和application运行任务探活、Sesion运行方式通过RestApi来告警；特定场景的业务可以靠监控存储中间偏移量来告警；通用大规模应用场景可以通过采集运行时日志、使用调度平台，使用调度平台、引入开源SDK方式、自定义SDK写入通用系统通用系统里方式选择。

2024-01-28 19:54:19 5951 5

数据建模是将定义现实世界的数据抽象成模型的过程，以便更好的分析，管理和操作数据实现需求。数据建模在数仓管理、数据库设计、算法模型训练等领域都有着重要的作用。在不同的领域，数据建模的关注点不同：在数据库设计领域，定义数据模型，用于有效地存储和管理数据，确保数据的一致性、完整性和可维护性等；在算法领域，抽象事物特征构建数据模型，用于跑算法模型，实现线性回归预测、自动决策、神经网络训练等；在大数据领域，用于为组织提供一个集成、一致、可靠的数据存储和分析平台，以支持业务决策、数据分析和报告等。

2024-01-25 14:28:54 2638 8

原创 AI对比：ChatGPT和文心一言的区别和差异

ChatGPT和文心一言都是基于大模型驱动的AIGC产品，由于两者训练的基础数据不同，造成了两者功能和性能上的差异。本文分析了两者大模型的区别，测试了二者部分功能和性能上的差异。

2024-01-22 14:00:05 9011 19

原创 ChatGPT时代对大数据应用的展望

ChatGPT依靠训练的语言大模型，极大的提升了语言类AIGC的应用。在大数据领域，期盼的愿望是可以通过语言就能实现大数据开发到应用，将chatGPT当作自己的私人管家，大数据工作者只需要去维护解决ChatGPT运维下的系统异常就行。这将极大释放大数据领域工作者的生产力，可以将精力聚焦在更有价值的地方。

2024-01-20 18:16:00 2142 4

原创大数据工作岗位需求分析

随着大数据需求的增多，许多中小公司和团队也新增或扩展了大数据工作岗位；但是却对大数据要做什么和能做什么，没有深入的认识；往往是招了大数据岗位，搭建起基础能力后，就一直处于重复开发和任务运维的状态；后续大数据人员也做了其他很多工作，仿佛什么都在做，就是不知道集中精力该往哪个方向努力。本文从基础大数据开发岗开始分析，思考大数据工作细分有哪些岗位，分别需要什么能力，以此来提供大数据能力发展方向参考。

2024-01-18 17:38:27 3586 1

原创 MPP架构和分布式架构的区别

对大数据的数据处理需求，当前技术方向上存在两个不同的发展路线，MPP和分布式处理。两者数据处理的基本思路都是一样的，分布式并行处理再合并结果；但由于二者在处理架构上的差异，最终产品在应用需求性能侧重也有所不同。

2024-01-15 20:11:25 4003 10

原创 Flink定制化功能开发，demo代码

本文将通过flink的DataStream模块API，以kafka为数据源，构建一个基础测试环境；包含一个kafka生产者线程工具，一个自定义FilterFunction算子，一个自定义MapFunction算子，用一个flink任务将实时读kafka并多层处理串起来；让读者体会通过Flink构建自定义函数的技巧。

2024-01-12 21:30:50 1299 6

原创如何基于Flink实现定制化功能的开发

技术为需求服务，通用需求由开源软件提供功能，一些特殊的需求，需要基于场景定制化开发功能。而对于自定义开发功能，Flink则提供了这样的SDK接口能力。本文将从定制化功能需求分析和如何基于Flink构建定制化需求功能两个方面分享描述。

2024-01-11 21:27:08 2258 2

原创 FlinkCDC的分析和应用代码

本文将从FlinkCDC应用场景开始，然后讲述其基于Flink的实现原理和代码应用，为下一篇介绍基于Flink开发定制化引擎做铺垫。

2024-01-09 22:14:23 3674 10

原创大数据OLAP引擎发展原因及特性分析

大数据OLAP分析能力，纯计算的有：MapReduce、SparkSql、FlinkSql，这些都是可以灵活构建在存储系统之上，拥有数据处理和分析能力；存算嵌合的组件有：Hive、Impala、Druid、kylin、ES、ClickHouse、Doris，这些都具备OLAP分析能力，实时分析还拥有实时数据API支持能力（关注QPS性能）。基于离线OLAP分析，数据处理是构建数仓的核心能力，有HIve和Doris；

2024-01-07 19:48:46 2275 2