大数据与数据治理
文章平均质量分 81
大数据:聚焦于大数据处理架构
数据治理:从更高的架构层面看数据,让其变得更好用
人工干智能
IT行业的老黄牛!文章见!不吹牛!能帮你解决技术问题,请直接15013038985(微信同号)
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
科普:神经网络输入层shape与训练集x_train的shape
程序中create_mlp(x_train.shape[0]) 错误地将样本数量当成了输入特征维度,这是个常见的错误,应改为 create_mlp(x_train.shape[1])。x_train.shape[0] 返回样本数(行数),x_train.shape[1] 才是每个样本的特征数(列数)。神经网络的输入层形状必须匹配特征数,否则模型构建或训练时会报错。原创 2026-03-26 22:31:05 · 309 阅读 · 0 评论 -
科普:select中的`array_agg()` 与 `row()`的不同点
`array_agg()` 是“多行合为一个数组”(纵向聚合),`row()` 是“多字段合为一个结构”(横向组合),两者的“组合逻辑”和结果结构完全不同。原创 2025-10-08 07:30:42 · 445 阅读 · 0 评论 -
三种查询语言比较:SQL、SPL、PromQL
若处理的是关系型数据库中的结构化数据,需求是简单的查询、关联、聚合(如业务报表、订单统计),SQL 是最通用、最高效的选择。若面临复杂数据处理场景(如多源数据融合、分步依赖的计算、非结构化数据处理、漏斗/留存分析),SQL 实现困难时,SPL 是更优解。若需分析监控系统的时序指标(如 CPU 使用率、QPS、告警规则配置),PromQL 是专为该场景设计的“原生语言”,无法被 SQL/SPL 替代。原创 2025-09-21 22:26:55 · 1164 阅读 · 0 评论 -
科普:数据存储“key - value”与“key - key - value”
在实际应用中,选择使用“key - value”还是“key - key - value”存储方式,需根据数据结构特点、查询需求、系统性能要求等多方面因素综合考虑原创 2025-04-12 07:15:30 · 843 阅读 · 0 评论 -
科普:关系图谱中的网络特征如何输入到模型中?
关系网络特征是以图的方式表达,而模型算法的输入是变量表达(离散的或连续的),那么,图谱表达的方式是否要转化为特征向量才能作为模型算法的输入?那又如何转化?将关系网络(图谱)转化为模型算法可处理的输入(如特征向量)通常是必要的,因为大多数传统机器学习模型(如线性回归、神经网络)无法直接处理图结构数据。原创 2025-04-11 10:26:33 · 1095 阅读 · 0 评论 -
科普:原始数据是特征向量么?
**原始数据不是特征向量**,需通过特征工程(清洗、转换、提取)生成模型可输入的数值型特征向量。 **特征维度无需强制正交**,仅在线性模型或降维场景下需要考虑正交性;对于LightGBM等树模型,特征相关性不影响模型效果,重点在于特征的预测能力,而非数学正交性。原创 2025-04-08 21:16:20 · 865 阅读 · 0 评论 -
大模型LLM:谎言重复一千遍就是真理
在大模型训练中,训练数据中重复出现错误或偏见信息,导致模型生成时倾向于这些内容。在大模型训练语境下,“谎言重复一千遍就是真理”这句话可从**数据分布、统计学习机制、认知偏差映射**三个维度理解,本质上反映了训练数据特性对模型输出的决定性影响原创 2025-04-08 08:50:21 · 1133 阅读 · 0 评论 -
科普:GBDT与XGBoost比较
XGBoost是GBDT的“工程化增强版”,在保持Boosting核心思想的同时,通过数学优化(二阶导数、正则化)和工程优化(并行化、分布式)大幅提升了模型的效率和效果,成为当前结构化数据建模的首选工具。GBDT则作为基础算法,适合学习Boosting原理或小规模场景快速验证。实际应用中,XGBoost凭借其全面优势,已在绝大多数场景中取代传统GBDT。原创 2025-04-07 21:22:19 · 899 阅读 · 0 评论 -
科普:评估特征对结果的贡献:SHAP值和IV值
SHAP(Shapley Additive exPlanations)和IV值(Information Value,信息价值)都是机器学习中用于评估特征对结果贡献的指标,但它们在原理、特点和应用场景等方面存在一些区别原创 2025-03-17 19:19:53 · 2808 阅读 · 0 评论 -
科普:WOE编码与One-Hot编码
WOE编码是业务逻辑与统计建模的结合,适合强业务导向的场景; One-Hot编码是数据驱动的特征工程,适合追求模型性能的场景。原创 2025-03-16 21:32:01 · 1043 阅读 · 0 评论 -
科普:为何要对特征进行分箱?
分箱(Binning)是将连续型或离散型特征转化为区间型变量的过程,其核心目标是提升模型效果和解释性,原创 2025-03-16 21:52:22 · 995 阅读 · 0 评论 -
科普:“表格式 ”与“ 存储格式”
- 存储格式:解决单文件如何高效存储数据,关注压缩、编码、读写性能。 - 表格式:解决多文件如何组织与管理,关注事务、版本、跨引擎兼容性。 通常组合使用两者,例如: - 数据以 Parquet格式存储, - 通过 Iceberg表格式管理, - 实现高效存储与逻辑管理的双重优化。原创 2025-02-15 17:20:46 · 1455 阅读 · 0 评论 -
科普:“访问控制”与“鉴权服务”
“访问控制”是定义和实施权限的策略和机制,而“鉴权服务”是在用户尝试访问资源或执行操作时验证这些权限的过程。访问控制为鉴权服务提供了基础,定义了哪些权限存在以及谁拥有这些权限,而鉴权服务则负责在用户尝试访问或操作时验证这些权限。原创 2025-02-13 14:49:04 · 479 阅读 · 0 评论 -
科普:给字段起名(词根组规范)
基础词根:构建企业级的基础词根库,将最细粒度的业务术语作为词根进行统一管理。这些词根可以是普通词根,如“客户 - customer”、“交易 - transaction”,也可以是特定行业的专有词根,如金融领域的“人民币 - RMB”。词根分类:词根可以根据其语义进行分类,如名词词根、动词词根、形容词词根等。在字段命名时,应根据字段的实际含义选择合适的词根。原创 2025-02-13 11:32:12 · 1500 阅读 · 0 评论 -
科普:数据血缘理论中:任务血缘、表血缘、字段血缘
在讨论数据血缘时通常我们提到的是数据库血缘、数据表血缘和数据字段血缘,而“任务血缘”这一术语更多是在特定技术场景(如实时任务运维)中使用。原创 2025-02-12 21:38:26 · 996 阅读 · 0 评论 -
科普:“数据”与“元数据”
数据数据(Data)是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合。数据是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加工的原始素材。在计算机科学中,数据是指所有能输入计算机并被计算机程序处理的符号的介质的总称。数据可以是连续的值,比如声音、图像,称为模拟数据;也可以是离散的,如符号、文字,称为数字数据。元数据。原创 2025-02-12 09:36:05 · 814 阅读 · 0 评论 -
科普:数据存储时,考虑“冷数据”和“热数据”
冷数据和热数据是根据数据的访问频率和重要性来定义的两种数据类型。原创 2025-02-11 21:13:49 · 1308 阅读 · 0 评论
分享