Light Gao-CSDN博客

原创国内AI大模型盘点：中国科技巨头塑造智能新时代

国家网信办官网发布信息，为推动生成式人工智能服务的创新与规范应用，网信部门联合相关部门，依据《生成式人工智能服务管理暂行办法》有序开展了备案工作。截至目前，已有117个大模型顺利完成备案。

2024-08-20 16:33:03 1410

原创 AI入门指南(四)：分类问题、回归问题、监督、半监督、无监督学习是什么？

人工智能（AI）已经成为我们生活中不可或缺的一部分，从推荐你喜欢的电影，到chatGTP对话，AI的应用无处不在。然而，对于刚刚接触AI的朋友来说，有些术语可能有些抽象。今天，我们就来拆解几个关键的概念：分类问题、回归问题、监督、半监督、无监督学习。

2024-08-20 14:38:56 1076

原创 AI入门指南(三)：特征、欠拟合、过拟合、离散数据、连续数据是什么？

在这篇文章中，我们深入探讨了机器学习中的核心概念，如特征、离散数据与连续数据、分类与回归问题，以及过拟合与欠拟合等内容。通过结合实际案例，尤其是贷款申请的数据示例，帮助读者更好地理解这些概念的实际应用和意义。文章还澄清了特征与特征向量的区别，说明了如何有效选择和处理数据，以提高模型的预测能力。这是一份为机器学习初学者准备的实用指南，有助于打下坚实的基础。

2024-08-09 14:43:50 1034

在这篇文章中，我们探讨了“大模型”的概念及其与小模型的区别。大模型基于先进的神经网络算法，如卷积神经网络（CNN）、循环神经网络（RNN）和Transformer，通过处理海量数据和调整数十亿个参数来提升模型的表达能力和预测性能。这些模型广泛应用于自然语言处理、计算机视觉、语音识别和推荐系统等领域。我们还对大模型的分类进行了详细介绍，包括语言大模型、视觉大模型和多模态大模型，并通过实际应用案例，如OpenAI的GPT-3，展示了大模型在实际场景中的强大能力。通过对比小模型和大模型的特点，我们深入理解了大模型

2024-08-08 15:51:27 1376

原创 AI入门指南(一)：什么是人工智能、机器学习、神经网络、深度学习？

在《AI入门指南：什么是人工智能、机器学习、神经网络和深度学习？》这篇文章中，详细介绍了人工智能的基础概念和其发展历程。文章深入浅出地解释了人工智能（AI）和机器学习（ML）之间的区别，并探讨了神经网络与深度学习的基本原理及其应用场景。通过简单易懂的示例，读者可以清晰地了解这些技术是如何相互关联的，以及它们在现实世界中的实际应用，帮助读者快速入门并掌握AI的核心知识。

2024-08-02 10:24:39 1532

原创 SPARKSQL3.0-源码剖析全流程导读

SPARKSQL3.0-源码剖析全流程导读

2022-11-22 15:50:58 1245

原创 Clickhouse-CPU内存资源优化配置

Clickhouse-CPU内存资源优化配置

2022-07-20 17:43:39 11488 3

原创湖仓一体2.0：智能湖仓的新时代

智能湖仓：新时代的数据管理架构，在数据管理领域，智能湖仓（Intelligent Data Lakehouse）正逐渐成为一种不可忽视的新型架构。本文详细探讨了智能湖仓的起源、关键特性和实际应用，揭示其如何在湖仓一体（Data Lakehouse）的基础上，通过集成AI、机器学习和自动化等功能，进一步提升数据管理和分析的效率。智能湖仓不仅具备统一存储、统一元数据管理和高性能查询等特点，还提供了灵活的数据处理和强大的数据治理与安全机制。通过真实案例，本文展示了智能湖仓如何帮助企业高效管理数据、克服“

2024-07-19 15:39:32 1549

原创从数据湖到湖仓一体：统一数据架构演进之路

本文详细探讨了从数据湖到湖仓一体的演进过程及其在现代数据管理中的重要性。湖仓一体由Databricks于2020年提出，旨在融合数据湖和数据仓库的优势，通过无缝集成，实现数据存储和管理的统一架构。湖仓一体的出现主要是为了降低成本和解决数据孤岛问题。传统的数据湖和数据仓库各自独立建设，导致重复投资和数据管理上的困难，而湖仓一体通过简化基础架构、提升数据存储弹性和质量，有效减少了这些问题。

2024-07-17 11:13:52 1547

原创从数据仓库到数据湖(下)：热门的数据湖开源框架

在《从数据仓库到数据湖(下)：热门的数据湖开源框架》中，详细分析了市面上热门的开源框架，包括Delta Lake、Apache Iceberg、Apache Hudi和Apache Paimon。这些框架虽然宣称是数据湖解决方案，但在实际使用中仍存在一些不足。文章指出，这些技术产品更像是数据管理中间件，借助于分布式文件系统和计算引擎实现数据的存储和管理功能，尚未完全满足数据湖应具备的能力，如数据抽取、元数据管理和数据分析。文章最后强调了数据湖技术在实际应用中的局限性和改进空间。

2024-07-09 15:17:39 1538

原创从数据仓库到数据湖(上)：数据湖导论

在《从数据仓库到数据湖(上)：数据湖导论》一文中，详细介绍了数据湖的起源、定义及其与数据库和数据仓库的区别。数据湖由詹姆斯·迪克森于2010年提出，能够存储结构化、半结构化和非结构化数据，具有大容量存储和快速处理多种数据格式的能力。数据湖不仅能保存原始数据，还支持快速查询、数据分析和机器学习，帮助企业更好地挖掘数据价值。它由数据存储架构和数据处理工具组成，是一种综合解决方案，而不是单一产品。文章还对数据湖与数据仓库的不同特性进行了详细对比，阐述了数据湖在现代数据管理中的重要性。

2024-07-09 15:09:55 1805 1

原创调度系统揭秘（下）：调度算法与架构设计

调度系统揭秘（下）：调度算法与架构设计

2024-07-06 13:54:21 933

原创调度系统揭秘（上）：调度系统设计思想

调度系统揭秘（上）：调度系统设计思想

2024-06-13 13:57:53 984

原创从数据库到数据仓库：数据仓库导论

本文为数据仓库导论，旨在介绍数据仓库的基本理念和应用场景，帮助读者理解数据仓库的重要性及其在企业中的实际应用。

2024-06-13 11:12:18 1648

原创 SDK定制化开发实践：SDK改造中的关键问题及解决方案

在我们之前的文章[产品SDK化转型：标准化与机构个性化定制解决方案](https://blog.csdn.net/qq_35128600/article/details/137101481)中，我们探讨了一种基于SDK的灵活架构设计，旨在协调产品迭代与定制化功能之间的矛盾，并且具备良好的可维护性和可扩展性。然而，在实际开发中，我们面临一个亟待解决的关键问题：即在机构定制化过程中，必须涉及对SDK内部进行改造的情况。举例来说，假设SDK中提供了用户密码加密的 `/user/encryption` 接口，默

2024-05-21 14:50:36 1271

原创告别硬编码：Spring条件注解优雅应对多类场景

在当今的软件开发中，服务接口通常需要对应多个实现类，以满足不同的需求和场景。举例来说，假设我们是一家2B公司，公司的产品具备对象存储服务的能力。然而，在不同的合作机构部署时，发现每家公司底层的对象存储服务都不相同，比如机构A使用阿里云，机构B使用AWS S3等。针对这种情况，公司应用底层需要支持多种云存储平台，如阿里云、AWS S3等。又由于每种云存储平台都拥有独特的API和特性，因此在设计软件时必须考虑到系统的可扩展性。通常情况下，我们会编写一个对外开放的openAPI接口，而应用底层需要根据不同的需

2024-05-21 14:44:15 1141

原创产品SDK化转型：标准化与机构个性化定制解决方案

在互联网行业中，企业通常可分为两大类别：2C和2B。对于2B企业而言，它们的产品往往以产品的形式提供给各个合作机构。以金融领域为例，一家2B金融公司通常将产品销售给各个银行和证券公司，这是2B领域常见的做法。然而，在与众多合作机构合作时，常常需要进行产品迭代和定制化功能的开发。这些定制化功能涉及到前端页面和后端接口，有些功能甚至不适合合并到主线产品中，而只能作为合作机构的特殊功能。随着合作机构的增加，一个产品可能需要兼容数十家银行，这使得面对众多定制化需求以及需求可能需要合并至产品的情况变得复杂。

2024-03-28 10:08:10 1126

原创 Java SPI解读：揭秘服务提供接口的设计与应用

在 Java 编程中，SPI（Service Provider Interface）是实现**可插拔式**应用的一种机制。它就像是应用程序的魔法盒，让你可以随时添加新的功能实现，而不需搞得一团糟。通过SPI，我们可以在运行时**动态加载**具体的服务实现，这意味着你的应用程序可以像变戏法一样，轻松地变身成不同的形态。

2024-03-28 09:54:17 1304

原创 Flink实操：Flink SQL实现SFTP文件读写操作

Flink实操：Flink SQL实现SFTP文件读写操作

2024-03-11 14:14:35 1351

原创 Flink实时数仓同步：实时表、流水表、快照表整合实战详解

Flink实时数仓同步：实时表、流水表、快照表整合实战详解

2024-03-11 13:53:25 2641

原创 Flink实时数仓同步：切片表实战详解

Flink实时数仓同步：切片表实战详解

2024-03-07 15:57:03 1098

原创 Flink实时数仓同步：实时表实战详解

Flink实时数仓同步：实时表实战详解

2024-03-07 15:52:44 1877

原创 Flink实时数仓同步：快照表实战详解

在大数据领域，初始阶段业务数据通常被存储于关系型数据库，如MySQL。然而，为满足日常分析和报表等需求，大数据平台采用多种同步方式，以适应这些业务数据的不同存储需求。这些同步存储方式包括离线仓库和实时仓库等，选择取决于业务需求和数据特性。一项常见需求是，业务使用人员需要大数据分析平台中查看历史某一天的表数据，示例如下：

2024-02-02 17:24:57 1459

原创 Flink实时数仓同步：流水表实战详解

在大数据领域，初始阶段业务数据通常被存储于关系型数据库，如MySQL。然而，为满足日常分析和报表等需求，大数据平台采用多种同步方式，以适应这些业务数据的不同存储需求。这些同步存储方式包括离线仓库和实时仓库等，选择取决于业务需求和数据特性。一项常见需求是，大数据分析平台需要能够检索某张业务表的变更记录，并以每天为单位统计每条数据的变更频率。

2024-02-02 17:03:55 1290