数字天下
码龄10年
关注
提问 私信
  • 博客:142,287
    社区:2,308
    问答:1,912
    动态:80
    学院:564
    147,151
    总访问量
  • 147
    原创
  • 10,320
    排名
  • 1,429
    粉丝
  • 33
    铁粉
  • 学习成就

个人简介:计算机专业,毕业后从事转件开发工作16年,对oracle ,mysql 数据库熟悉。熟悉银行业务,做过数据治理、数仓项目。 最擅长的是数据管理,计算机知识,金融理财。对数码、情感、美食、影视领域也有所擅长。爱好广泛 致力于知识变现、副业的探索

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:河北省
  • 加入CSDN时间: 2014-10-20
博客简介:

qq_22201881的博客

查看详细资料
  • 原力等级
    成就
    当前等级
    5
    当前总分
    1,249
    当月
    36
个人成就
  • 获得1,709次点赞
  • 内容获得5次评论
  • 获得1,324次收藏
创作历程
  • 117篇
    2024年
  • 18篇
    2023年
  • 5篇
    2022年
  • 1篇
    2020年
  • 6篇
    2019年
成就勋章
TA的专栏
  • 新媒体运营
    3篇
兴趣领域 设置
  • 大数据
    oraclesqldatabasemysql数据库数据仓库etl工程师
  • AIGC
    AI作画
TA的社区
  • 张志颖的课程社区_NO_1
    1 成员 33 内容
    创建者
创作活动更多

AI大模型如何赋能电商行业,引领变革?

如何使用AI技术实现购物推荐、会员分类、商品定价等方面的创新应用?如何运用AI技术提高电商平台的销售效率和用户体验呢?欢迎分享您的看法

175人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

数据治理系列:可参考的国外数据治理框架

DAMA 数据管理模型国际数据管理协会(DAMA),推出的DMBOK2(数据管理知识体系)对于企业数据治理体系的建设有一定的指导性。注:DAMA 是数据管理协会的简称,是一个全球性数据管理和业务专业志愿人士组成的非营利协会,致力于数据管理的研究和实践。DAMA-DMBOK定义了10各职能域,用于指导组织的数据管理职能和数据战略的评估工作,并建议和指导刚起步的组织去实施和提升数据管理。数据治理:数据资产管理的权威性和控制性活动(规划、监视和强制执行),数据治理是对数据管理的高层计划与控制。数据架构管理:定义企
原创
发布博客 15 小时前 ·
478 阅读 ·
6 点赞 ·
0 评论 ·
11 收藏

一文讲清楚人工智能自然语言处理中的数据预处理(数据清洗)

当然了,对于不同的食材我们可能会采用不同的清洗方式,也就是说,对于不同结构的数据样本我们选取的数据处理方法也可能会不同,比如说对于某些蔬菜我们需要用水清洗,然后切成小段,但是对于豆豉,酸菜之类的食材我想没有人会用水清洗它吧,因此不同形式的数据样本往往采取的是不同数据处理方法的组合。还有,我们对于面粉之类的食材一般没有人生啃吧,是需要对其进行醒面发酵之后才能被我们用作完美的食材,所以这个过程也就涉及食材的转化,也就是说,我们的样本数据也可能会利用一些方法进行适当的转化从而被我们更好地用来训练模型。
原创
发布博客 前天 09:24 ·
217 阅读 ·
6 点赞 ·
0 评论 ·
1 收藏

一文带你看懂数据清洗的六大问题!(附工具推荐)

但是我们可以看到数据清洗的人力成本是比较高的,在真实场景中,数据情况往往会更错综复杂,如果不想经历上述基本的数据清洗手段,可以使用ETL工具来帮助简化数据处理流程,国内ETL产品中做的比较好的有FineDataLink(以下简称FDL)。简单操作即可完成数据清洗,省时省力。这个环节通过将重复、多余的数据筛选清除,将缺失的数据补充完整,将错误的数据纠正或去除,从而提升数据质量,提供给上层应用调用。它可以有效处理数据的常见问题:数据缺少值、数据值不匹配、数据重复、数据不合理、数据字段格式不统一、数据无用。
原创
发布博客 前天 09:22 ·
271 阅读 ·
3 点赞 ·
0 评论 ·
7 收藏

数据仓库之 Atlas 血缘分析:揭示数据流奥秘

通过Atlas血缘分析工具,我们可以更好地理解数据生成的过程,提高数据的准确性和可靠性。血缘分析通过确定数据源之间的关系,以及数据在处理过程中的变化,帮助我们更好地理解数据生成的过程,提高数据的可靠性和准确性。在这篇文章中,我们将通过一个实际的案例,介绍Atlas血缘分析在数据仓库中的应用。此外,Atlas还支持数据血缘的可视化和交互式分析,可以帮助我们更好地理解数据流和数据源之间的关系。Atlas是一个开源的血缘分析工具,它可以帮助我们追踪数据在数据流中的变化,识别数据源之间的关系,从而确定数据的血缘。
原创
发布博客 2024.11.07 ·
509 阅读 ·
10 点赞 ·
0 评论 ·
1 收藏

数据治理:聊聊数据血缘!

为了最大程度降低项目失败的风险,我们需要考虑数据血缘的服务用户对象,确定业务方面和技术方面的血缘优先,需要考虑到细节程度,覆盖率,变化频率,同时还要考虑人员流动,组织部门,技术架构等情况,制定最适合我们自己的策略。影响分析和质量问题分析, 这个数据开发部们的核心需求,随着数据应用越来越多,数据的流动链越来越长,一个源头的核心业务的改动,下游各分析应用必须保持同步,没有影响分析,就会各个数据服务造成异常访问的情况。从技术角度来讲,数据a通过ETL处理生成了数据b,那么,我们会说,数据a与数据b具有血缘关系。
原创
发布博客 2024.11.07 ·
959 阅读 ·
25 点赞 ·
0 评论 ·
16 收藏

ETL处理全流程

例如,要从一个提供天气数据的 API 获取某个城市的天气信息,ETL 工具可能会发送如下的 GET 请求,这个请求的 URL 指向了 API 的端点,其中包含了查询参数(如城市名称和数据类型)。在加载数据之前,首先要明确数据的接收方。FineDataLink 是一款低代码/高时效的ETL数据集成平台,面向用户大数据场景下,满足实时和离线数据采集、集成、管理的诉求,提供快速连接、高时效融合各种数据、灵活进行ETL数据开发的能力,帮助企业打破数据孤岛,大幅激活企业业务潜能,使数据成为生产力。
原创
发布博客 2024.10.31 ·
801 阅读 ·
22 点赞 ·
0 评论 ·
12 收藏

Oracle 大表添加索引的最佳方式

补充方法1:由于创建索引时需要对表进行全表扫描,可以适当考虑调大db_file_multiblock_read_count的值, db_file_multiblock_read_count影响Oracle在读取数据时一次读取的最大block数量,在进行一些数据量比较大的操作时,可以适当 调整当前session的db_file_multiblock_read_count值,会在IO上节省节省一些时间。打扫战场:添加完索引后,把打扫一下战场,把战场恢复到操作之前,因此我们要把调整的参数进行恢复到原来的样子。
原创
发布博客 2024.10.31 ·
909 阅读 ·
5 点赞 ·
0 评论 ·
5 收藏

流批一体指的是什么,全面了解流批一体

这一背景下,流批一体(UnifiedStreamandBatchProcessing)作为一种创新的数据处理模式应运而生,它结合了流处理(StreamProcessing)和批处理(BatchProcessing)的优势,为企业提供了更加灵活、高效的数据处理能力。在流批一体方面,SelectDB通过统一的计算引擎和灵活的存储层设计,实现了对实时数据流和批量历史数据的统一处理和分析。增强的实时性和灵活性:流批一体架构支持对实时数据流进行快速响应和处理,同时保留了批量处理的能力以应对大规模数据处理的需求。
原创
发布博客 2024.10.28 ·
355 阅读 ·
3 点赞 ·
0 评论 ·
4 收藏

构建数据湖仓的开源技术栈有哪些

具体来说,数据治理通常包括数据的质量保证、数据的血缘追踪、数据的分类和分级、以及数据的合规性管理。Table Format 是表的抽象,将数据集⽂件组合起来,以单个“表”的形式呈现,允许⼈和⼯具与表数据⾼效交互,它本⾝并不存储数据,只是定义了表的元数据信息以及数据⽂件的组织形式、统计信息以及上层引擎读取和写⼊的相关 API。数据湖仓(Lakehouse)的元数据管理是指在数据湖的基础上增加数据仓库的管理特性,特别是对数据的元数据进行组织、存储、检索和维护的过程。其主要功能包括元数据的存储、管理和查询优化。
原创
发布博客 2024.10.28 ·
1311 阅读 ·
33 点赞 ·
0 评论 ·
16 收藏

SQL 中查找重复数据的四种方法

本文概述了四种 SQL 技术来检测和处理这些重复数据:使用GROUP BY和HAVING识别重复行的分组,采用诸如ROW_NUMBER()的窗口函数进行高效分析,利用EXISTS操作符检查特定的重复条件,以及执行自连接以比较同一表中的行。SQL 中的EXISTS操作符提供了另一种检查满足特定条件的行是否存在的方法,这使得其在识别重复数据时特别有用。重复数据的存在可能导致以下几个问题。让我们看看如何从表中的完全重复项中删除行,可使用公共表表达式(CTE)和ROW_NUMBER() 函数的组合。
原创
发布博客 2024.10.24 ·
1421 阅读 ·
26 点赞 ·
0 评论 ·
5 收藏

MySQL 临时表详解

在 MySQL 中,临时表(Temporary Table)是一种非常有用的工具,可以帮助我们在执行复杂查询时存储临时数据。临时表的存在时间仅限于会话期,当会话结束后,临时表自动销毁。临时表是一种只在当前会话(session)有效的表,一旦会话结束,MySQL 会自动删除这些临时表。临时表用于在复杂查询中存储中间结果,或者用于需要临时存储数据进行后续处理的场景。虽然 MySQL 会在会话结束后自动删除临时表,但如果连接没有正确关闭(例如异常终止),临时表可能无法自动清理。– 删除临时表后,查询永久表。
原创
发布博客 2024.10.24 ·
433 阅读 ·
5 点赞 ·
0 评论 ·
10 收藏

oracle11g之数据库权限知识

SYS,默认密码为CHANGE_ON_INSTALL,当创建一个数据库时,SYS用户将被默认创建并授予DBA角色,所有数据库数据字典中的基本表和视图都存储在名为SYS的方案中,这些基本表和视图对于Oracle数据库的操作时非常重要的。SYSTEM,默认密码为MANAGER,与SYS一样,在创建Oracle数据库时,SYSTEM用户被默认创建并被授予DBA角色,用于创建显示管理信息的表或视图,以及被各种Oracle数据库应用和工具使用的内容表或视图。
原创
发布博客 2024.10.19 ·
882 阅读 ·
14 点赞 ·
0 评论 ·
13 收藏

数据资产目录构建方法与应用

二、企业数据资产目录的核心组成部分1、数据资产清单数据资产清单是数据资产目录的基石,它全面准确地列出了组织内的所有数据资产。通过构建一个完善的数据资产目录企业可以实现对数据资产的高效管理、全面理解和利用支持数据治理和合规审计提升数据资产的价值和安全性为企业的发展提供有力支持。2、元数据管理元数据是描述数据资产的“数据”,是数据资产目录的关键支撑。1、数据治理:数据资产目录是数据治理的核心支撑,它记录了数据规范和标准,能够指导数据标准化的统一实施,确保组织内部数据的命名、定义等标准一致。
原创
发布博客 2024.10.19 ·
1077 阅读 ·
19 点赞 ·
0 评论 ·
20 收藏

数据库自增字段的三种实现方式

SQL Server 支持为字段指定 IDENTITY(start, increment) 属性的方法定义一个标识列,start 表示序列的起始值,increment 表示每次的增量值。在上面的插入语句中,我们没有指定 user_id 的值,此时 MySQL 会自动为该字段生成一个递增序列值。Oracle 序列的数据类型为 NUMBER,包含一个最小值,一个最大值,一个起始值,一个增量值,缓存选项以及一个循环使用选项。而且还会将自增序列的起始值值设置为该值,可能导致自增字段值的跳跃。
原创
发布博客 2024.10.16 ·
832 阅读 ·
23 点赞 ·
0 评论 ·
9 收藏

大厂处理 MySQL 大数据表的三种选择方案!

为什么要分区:表分区可以在区间内查询对应的数据,降低查询范围 并且索引分区 也可以进一步提高命中率,提升查询效率 分区是指将一个表的数据按照条件分布到不同的文件上面,未分区前都是存放在一个文件上面的,但是它还是指向的同一张表,只是把数据分散到了不同文件而已。在执行了分库分表之后,难以避免会将原本逻辑关联性很强的数据划分到不同的表、不同的库上,这时,表的关联操作将受到限制,我们无法join位于不同分库的表,也无法join分表粒度不同的表,结果原本一次查询能够完成的业务,可能需要多次查询才能完成。
原创
发布博客 2024.10.16 ·
525 阅读 ·
11 点赞 ·
0 评论 ·
8 收藏

常说的数据血缘是什么?有什么用?

例如,如果在数据分析中发现某些数据不准确或缺失,可以通过数据血缘追溯到数据的产生源头和流经的各个环节,确定是在哪个环节出现了问题,如数据录入错误、数据转换过程中的错误等。根据数据的生命周期特点,可以制定相应的数据管理策略,如数据存储期限、数据备份策略、数据清理策略等,优化数据资产管理。数据血缘(Data Lineage),又称为数据血统、数据起源、数据谱系,是指在数据的全生命周期中,从数据的产生、处理、加工、融合、流转到最终消亡,数据之间自然形成的一种类似人类血缘的关联关系。今天我们来探讨下数据血缘。
原创
发布博客 2024.10.13 ·
481 阅读 ·
20 点赞 ·
0 评论 ·
15 收藏

ETL工作介绍和常用工具

1.数据产生量大:每天企业业务会产生大量数据,这些数据都分散在不同的系统和数据源中,如数据库、文件系统、网络服务等。2.数据格式、结构和质量差异:每天产生的数据,来自不同的数据源和数据库,这些数据在格式、结构和质量有很大的差异性,所以必须进行预先的处理,才能用于分析和决策。它可以抽取这些分散的数据,进行清洗、转换和整合一系列操作,最终加载到一个统一的数据存储中,比如数据仓库或数据湖。通过 ETL,企业可以实现数据的集中管理和统一,为后续的数据分析、报表制作、数据挖掘等提供高质量的数据基础。
原创
发布博客 2024.10.13 ·
709 阅读 ·
12 点赞 ·
0 评论 ·
6 收藏

mysql 和oracle 数据库的区别

服务端提供oracle服务的实例,其是数据库的核心,用于数据库的管理,对象的管理与存储、数据的存储、查询、数据库资源的监控、监听等一些服务。oracle:oracle使用行级锁,对资源锁定的粒度要小很多,只是锁定sql需要的资源,并且加锁是在数据库中的数据行上,不依赖与索引。四、数据持久性oracle保证提交的数据均可恢复,因为oracle把提交的sql操作线写入了在线联机日志文件中,保持到了磁盘上,如果出现数据库或主机异常重启,重启后oracle可以考联机在线日志恢复客户提交的数据。
原创
发布博客 2024.10.10 ·
1313 阅读 ·
17 点赞 ·
0 评论 ·
14 收藏

如何实现MySQL异地多活场景

顾名思义,异地容灾就是在「主从高可用」架构的基础上,把服务器分别部署在不同地域的机房中,当中心节点地域的机房发生灾害,其他单元节点所处地域的服务器可以迅速接管业务,确保业务的可用性,但是这又会带来新的问题,单元节点平时只是作为「灾备实例」存在,谁能确保在所有中心节点的流量切换到单元节点后不出任何问题呢?作为现代化的互联网企业 ,最怕的是什么?根据页面提示完成配置后,在数据复制的任务列表中可以看到多了 2 条双向复制任务,当正反向任务的延迟为 0 的时候,代表数据源 A、B、C 之间的数据是一致的。
原创
发布博客 2024.10.10 ·
870 阅读 ·
9 点赞 ·
0 评论 ·
10 收藏

数据中台知识体系总结

一、数据中台是什么01 定义数据中台是一套可持续“让企业的数据用起来”的机制,是一种战略选择和组织形式,是依据企业特有的业务模式和组织架构,通过有形的产品和实施方法论支撑,构建的一套持续不断把数据变成资产并服务于业务的机制。数据中台是处于业务前台和技术后台的中间层,是对业务提供的数据能力的抽象和共享的过程,数据中台通过将企业的数据变成数据资产,并提供数据能力组件和运行机制,形成聚合数据接入、集成、清洗加工、建模处理、挖掘分析,并以共享服务的方式将数据提供给业务端使用,从而与业务产生联动,而后结合业务系统的
原创
发布博客 2024.10.09 ·
1014 阅读 ·
4 点赞 ·
0 评论 ·
8 收藏
加载更多