李晓闹-CSDN博客

原创如何建立高质量数据集

一个高质量的数据集并非仅仅是数据量的堆砌，它是一套目的明确、设计精良、处理规范、文档齐全的数据集合，能够高效、可靠地服务于特定的业务或研究目标。数据能够真实、无误地反映现实世界的情况。错误和噪声被控制在最低水平。数据在各个部分之间遵循统一的格式、标准和逻辑，没有相互矛盾的信息。所需的数据字段尽可能齐全，缺失值在可控和可处理的范围内。数据集中的特征（变量）与所要解决的问题高度相关，没有无关或冗余的数据。数据的时间属性符合任务要求。对于需要反映最新趋势的任务，数据必须是近期或持续更新的。

2025-10-23 16:44:03 1160

原创金融场景指标体系构建方法论

Achievable（可实现）：在现有技术条件下可实施。Time-bound（时效性）：能反映特定时间特征。Measurable（可测量）：数据可量化获取。Relevant（相关性）：与业务目标强关联。划分业务领域（如零售银行、公司金融、资管等）Specific（明确性）：指标定义无歧义。识别核心业务流（获客→审批→放款→贷后）标注关键决策点（如授信审批、风险定价）风险维度：包含信用/市场/操作风险。监管要求（巴塞尔协议、银保监指标）渠道转化率（APP/线下/第三方）业务维度：覆盖前中后台全流程。

2025-04-03 17:19:41 962

原创信息化、数字化与数智化的演进

信息化、数字化和数智化代表了企业在信息技术应用上的三个不同层次。它们不仅是技术进步的结果，更是企业管理理念和商业模式创新的重要体现。随着科技的不断发展，未来的企业将在数智化的道路上越走越远，创造出更多前所未有的可能性。

2024-12-26 10:18:48 1427

原创 sql里面得排序相关的窗口函数

在 SQL 中，窗口函数（Window Functions）是一类特殊的函数，它们可以用于在查询结果集中的窗口（例如某个特定行的邻近行）上执行计算。：为结果集中的行分配一个唯一的序号，通常配合 ORDER BY 在排序后的结果集中使用。：计算结果集中每行数据的排名，相同数值的行会得到相同的排名，略过后续排名。：将结果集划分为指定数量的桶（或称作瓜分），并为每一行分配一个对应的桶号。：用于获取结果集中当前行之前的某一行的值。：用于获取结果集中当前行之后的某一行的值。

2024-03-20 15:07:43 313

原创多元数据归集

多元数据数据归集是一系列系统化的方法，用于从多个数据源收集、整理和融合数据，以构建一个统一的、一致的数据集。这个过程通常涉及数据的提取、转换和加载（ETL），确保数据的准确性、完整性和一致性。

2024-03-18 17:01:14 1566

原创元数据管理

元数据管理是指对数据进行描述、组织、管理和利用的过程，它包括了数据的定义、结构、来源、关系等信息。良好的元数据管理可以帮助组织更好地理解和利用数据资源。下面是元数据管理的基本理论、过程和一些常用工具的总结：元数据定义：元数据分类：元数据管理的作用：收集元数据：存储元数据：维护元数据：利用元数据：Apache Atlas：Collibra：Informatica Metadata Manager：Alation：Dataedo：

2024-03-14 17:23:40 564

原创数据分析python库总结

这些补充内容可以帮助更好地理解和应用数据分析，将数据驱动的决策和业务应用落地到实际中。在实践中，结合这些内容，可以更全面地应用Python进行数据分析，解决实际问题，并取得更好的业务效果。在Python中进行数据分析时，有许多常用的工具和库可供选择。

2024-03-14 17:07:29 772

原创数据挖掘算法总结

在Python中，有许多用于数据挖掘的算法和工具。

2024-03-14 17:03:48 413

原创数据资源目录体系建设

这有助于提高数据资源的利用效率和降低重复采集数据的成本。建立数据治理机制，明确数据管理的责任和流程，包括数据所有权、数据审批流程、数据变更管理等，以确保数据的合规性和规范性。确保数据资源在存储、传输和处理过程中的安全性，包括数据加密、访问控制、风险管理等措施，以防止数据泄露、篡改和滥用。促进跨部门之间的合作和沟通，建立共享的数据管理平台和交流机制，以推动数据资源的共享和集成，实现资源优化和效率提升。管理数据资源的整个生命周期，包括数据的创建、存储、使用、共享、归档和销毁，以最大程度地提高数据的效益和价值。

2024-03-14 16:59:48 1309

原创标签生命周期管理

标签生命周期管理

2024-02-05 16:14:44 974

原创数据分析-异常指标排查和监控

数据分析-异常指标排查和监控

2024-02-05 10:56:50 1750

原创数据分析-专题分析

数据分析-专题分析

2024-02-05 10:44:44 809

原创数据分析-漏斗分析

数据分析-漏斗分析

2024-02-05 10:41:38 716

原创数据分析岗位的区别

数据分析岗位差别（经营分析、商业分析、数据分析、数据科学家）

2024-02-05 10:24:24 965

原创浅谈ABtest

AB测试

2024-01-29 11:14:48 579

原创数据驱动产品迭代

数据驱动产品

2024-01-26 11:38:25 923

原创数据分析内容总结（未完待续）

数据分析总结

2024-01-11 15:52:53 581 1

原创浅谈B端数据和C端数据

B端C端数据

2024-01-11 14:47:47 1116

原创 python 排序

python中的DataFrame 在排序过程中，之前的 sort_index()已经改为了sort_values(),所以在排序的过程中具体语法为df1.sort_values(axis=0,ascending=True,by=[‘a’])

2022-03-16 11:28:21 881

原创 hive相关知识

hivesql的相关知识1.union 和 union all的区别两个都能进行全连接，但是表字段名称需要相同。不同的是union连接后的结果不去重，union all的结果去重2.rank()over()和row_number()over() 的区别rank()over()的结果对存在的并列现象会全部显示，而row_number()over()则对结果只显示一个。如想找到成绩最好的人中...

2020-04-02 14:33:53 219

qq_40843166的博客