- 博客(3367)
- 收藏
- 关注
转载 开源数据治理平台有哪些
开源数据治理平台是一类以开放源代码形式提供的数据管理工具,帮助企业对数据资产进行标准化治理、权限控制、数据质量监控、血缘追踪和元数据管理。在大数据环境下,企业的数据类型复杂、流转频繁,治理难度逐年上升。开源工具如等,正逐步成为中大型企业的重要选择。它们支持跨系统集成、可视化管理,且背后有活跃社区持续维护和功能演进,是打造现代数据治理架构的关键基础。以上8款主流开源与闭源数据治理平台各具特色,适合不同类型的企业与数据治理需求。
2025-12-26 15:18:38
15
转载 数据库行存储及列存储详解
1、传统行式数据库的特性如下:①数据是按行存储的。②没有索引的查询使用大量I/O。比如一般的数据库表都会建立索引,通过索引加快查询效率。③建立索引和物化视图需要花费大量的时间和资源。④面对查询需求,数据库必须被大量膨胀才能满足需求。2、列式数据库的特性如下:①数据按列存储,即每一列单独存放。②数据即索引。③只访问查询涉及的列,可以大量降低系统I/O。④每一列由一个线程来处理,即查询的并发处理性能高。⑤数据类型一致,数据特征相似,可以高效压缩。
2025-12-26 14:36:40
13
转载 指标体系分析
建设指标体系,需要回答以下几个问题为什么建设数据指标体系如何评价数据指标体系,一个好的数据指标体系是要需要回答两个问题,它是不是有助于业务发展,以及说这个指标体系拆解是不是可具备、可落地、可实操的可能性。如何建设数据指标体系,这就需要我们的建设方法论了如何维护和管理指标,指标的维护和管理是有套路的,最简单的指标管理方法——指标字典,我们在此基础上可以做指标管理系统OSM 实现了业务目标结构化,UJM 实现了业务目标流程化。数据指标体系其实只是数据赋能业务的万里长征的第一步。
2025-12-25 17:09:36
13
转载 数据仓库为什么要用事实表和维度表
维度建模是数据仓库领域的大师之一Ralph Kimball所倡导,他参与所著的《The DataWarehouse Toolkit-The Complete Guide to Dimensona Modeling》,中文名《数据仓库工具箱》,是数据仓库工程领域最流行的数仓建模经典著作。建议有时间的朋友可以读一读。维度建模以分析决策的需求出发构建模型,构建的数据模型为分析需求(也就是我们通常所说的数据分析)服务。它重点解决如何更快速完成分析需求,同时还有较好的大规模复杂查询的响应性能。
2025-12-25 16:55:20
7
原创 维度表与事实表
维度表是数据仓库设计的核心组件,通过解耦业务描述与事实数据,实现查询性能、分析灵活性和数据一致性的平衡。其设计遵循“事实表存储事件,维度表存储上下文”的原则,为商业智能(BI)和数据分析提供高效、可靠的数据基础。
2025-12-25 16:09:43
662
转载 数据全栈知识架构-平台、开发、管理、分析
包括表、索引、视图、约束等。常见的DDL命令包括:CREATE:用于创建数据库对象,如创建表、视图、索引等。ALTER:用于修改数据库对象的结构,如修改表结构、添加列、修改约束等。DROP:用于删除数据库对象,如删除表、视图、索引等。TRUNCATE:用于快速删除表中的所有数据,但保留表结构。COMMENT:用于给数据库对象添加注释或说明。
2025-12-25 13:56:33
11
转载 数据开发是什么?数据开发工具有哪些?
数据开发是指利用各种技术和方法,对数据进行采集、存储、处理、分析和可视化展示的一系列过程。它旨在将原始的、分散的数据转化为有价值的信息,为企业的决策提供支持。简单来说,数据开发就像是一个数据加工厂,把杂乱无章的数据原料加工成精美的数据产品。
2025-12-25 13:11:30
11
转载 数字人全拆解:如何构建一个基于大模型的实时对话3D数字人
如何接受音频流、情绪数据等信息来驱动数字人说话、唇形甚至动作。借助iPhone实现面部表情捕捉并用于数字人:本图片来自Unreal官方网站可视化的设计数字人的交互行为逻辑:4)数字人打包运行。在完成上述工作以后,可以将整个数字人工程通过打包成一个可执行的应用程序运行,这样你就能看到一个正在运行的,包含丰富细节的3D数字人。
2025-12-24 11:10:59
33
转载 “数字人”(Digital Human)
“”(Digital Human)是指通过计算机图形、人工智能、语音合成、动作捕捉等多种技术,构建和驱动的。它既可以是真实人物的数字复制,也可以是完全虚构的人格形象,广泛应用于数字营销、虚拟主播、智能客服、元宇宙、教育等多个领域。
2025-12-24 10:48:42
63
原创 oraclejdk8编译的class在openjdk8上能正常使用吗
如果遇到兼容性问题,可以检查代码是否依赖了特定于 Oracle JDK 的功能,并考虑升级到更现代的 JDK 版本(如 OpenJDK 11 或更高),因为 Oracle JDK 8 已进入维护阶段,不再接收安全更新。:Oracle JDK 和 OpenJDK 在功能上高度一致,尤其是在 JDK 8 这个版本中,它们共享相同的代码基础。Java 的设计原则之一是向后兼容,这意味着使用较新版本的 JDK 编译的代码通常可以在旧版本的 JVM 上运行,但反之则不一定成立。:JDK 8 编译的。
2025-12-24 08:21:14
173
转载 PostgreSQL:开源数据库巅峰王者,以全能之姿璀璨绽放技术之域
这些衍生数据库在保留 PostgreSQL 核心功能的同时,还增加了各自独特的特性和优化,为程序员提供了更多的选择空间。通过 Apache AGE 和 EdgeDB 等基于 PostgreSQL 构建的图形数据库,以及 pg_graphql 扩展提供的 GraphQL 支持,PostgreSQL 能够轻松应对图形数据的存储、查询和分析任务。,凭借其丰富的功能和灵活性,在数据库领域占据了一席之地。综上所述,PostgreSQL 凭借其多样化的功能和强大的扩展性,在数据库领域展现出了强大的竞争力。
2025-12-23 16:13:25
26
转载 Discord
Discord是由Discord,Inc开发的聊天软件,于2015年5月13日正式上线。Discord支持创建或加入群聊进行聊天,提供个性化定制空间,包括表情、贴纸、头像等。具备流媒体服务,可玩游戏、观看节目。用户可以自由加入或退出聊天。可查看附近的人和游戏信息。支持观看视频、玩游戏、听音乐及分享内容。支持PC、手机和控制台,允许跨设备管理与朋友的群聊。2023年4月18日,Discord以1050亿人民币入选《2023全球独角兽榜》排名第23位。
2025-12-23 16:05:51
28
转载 全文检索介绍
全文检索是以非结构化数据为对象的计算机检索技术,允许用户通过自然语言直接匹配文本中的字符、词语或短语进行内容搜索,其核心流程包括文本索引构建与快速匹配查询。该技术通过分词处理将文档切分为独立词汇,基于倒排索引建立词汇与文档的映射关系,支持通配符、模糊搜索、精确短语检索等多种查询方式,并采用BM25算法进行相关性排序。全文检索系统由索引构建、查询处理、结果展示三大模块构成,其中索引核心采用层次化存储结构,支持分布式分片与副本机制以实现高可用性。
2025-12-23 12:02:24
12
转载 Lucene详解
Apache Lucene是一个用Java写的高性能、可伸缩的全文检索引擎工具包,它可以方便的嵌入到各种应用中实现针对应用的全文索引/检索功能。Lucene的目标是为各种中小型应用程序加入全文检索功能。Lucene的核心作者:Doug Cutting是一位资深全文索引/检索专家。版本发布情况:2000年3月,最初版发布,2001年9月,加入apache;2004年7月,发布1.4正式版;2009年11月,发布2.9.1(jdk1.4)及3.0(jdk1.5)版本;2015年3月,发布4.10.4。
2025-12-23 11:47:02
11
转载 知识库是什么?企业为什么需要知识库?
互联网历史上,对知识库的定义已经多次变化。最初,它是用来描述任何比普通关系型数据库更复杂的数据存储系统的术语。现在,随着SaaS的出现,知识库的定义已经有了不同的含义。根据定义,知识库是一个自助式存储库,用于存储有关您的产品、服务或品牌的易于检索的信息。从本质上讲,它是一个企业,其结构可以帮助员工或客户找到问题或疑虑的答案。如今,知识库已经成为任何知识管理系统不可分割的一部分。因此,它们以不同的格式和不同的用途出现。在本文中,我们将涵盖:1)什么是知识库?2)拥有知识库的好处。
2025-12-23 10:14:13
23
转载 数据治理这件事,90% 的公司都做错了
现实中的"统一指标"往往变成:一张官方指标表一堆没人敢用的字段业务继续自己算口径不是对错问题,是使用场景问题。运营要快财务要准分析要可解释强行统一,只会逼着大家绕开你。如果你们现在的治理:文档很多平台很重却没人主动用数据管理表演。真正好的治理是润物细无声的, 它不会天天被提起,但所有人都离不开。
2025-12-22 17:00:55
24
转载 RAG + LLM 如何对全量数据进行统计分析
使用专门的数据处理和分析工具(如 SQL 数据库、Python 的 Pandas/Dask/Spark、数据仓库如 BigQuery/Snowflake、统计软件 R 等)连接到全量数据集,执行所需的统计查询(例如。因此,直接让 RAG + LLM 系统对“全量数据”执行复杂的统计任务(比如计算整个数据库所有用户的平均消费金额)是不现实的,也是不推荐的。用户或自动化系统获取生成的代码,在实际的数据环境(数据库、数据分析平台)中执行,得到统计结果。无法处理临时的、特别复杂的或需要实时计算的统计请求。
2025-12-22 16:01:51
21
转载 语义相似度计算:衡量文本间的相似性
语义相似度(Semantic Similarity)是指衡量两个文本之间相似性的一种方法。这种相似性是基于文本中的词汇、短语和句子的语义关系来计算的。语义相似度计算在自然语言处理(NLP)、信息检索、文本挖掘等领域具有广泛的应用。
2025-12-22 13:53:42
56
转载 多模态检索技术详解:三大模型(GME/CLIP/VISTA)横向对比与实战选型
通用多模态检索(UMR)——简单说,就是用一个统一模型,实现“文本、图像、视频”等不同类型信息的跨模态搜索(比如“文搜图”“图搜视频”“图文组合搜内容”)。它的核心原理很直观:通过多模态表征模型,把文本、图片、视频这些“不同语言”的信息,统一转换成计算机能理解的“高维浮点数向量”(可以想象成一串带语义的数字密码)。这些向量被放进同一个“语义空间”后,就能通过计算“余弦相似度”,快速判断不同模态内容的关联度——这也是视频分类、图文检索、相似内容聚类的底层逻辑。1、优先看语言场景。
2025-12-22 13:26:55
46
转载 通义系列大模型
通义是阿里云自主研发的通用人工智能大模型,前身为2023年4月启动邀请测试的“通义千问”,同年9月备案后向公众开放。名称源自《汉书》“天地之常经,古今之通义也”,意为“普遍适用的道理基于Transformer架构,具备多模态理解、逻辑推理、多语言交互及长文本处理能力(2024年3月免费开放1000万字长文档处理功能)。支持文案创作、代码生成、语音转写等功能,覆盖编程、金融、医疗、法律等八大行业,提供通义灵码、通义智文、通义听悟、通义星尘、通义点金、通义晓蜜、通义仁心、通义法睿等模型。
2025-12-22 10:33:57
110
转载 有了开源的 MySQL,为什么还要选择 PostgreSQL?
而国产数据库的崛起,正是站在 PostgreSQL 的肩膀上,走出了一条自主创新之路。更关键的是:MySQL 缺少真正的独立序列对象(像 Oracle 或 PostgreSQL 那样),无法脱离表单独使用。尽管 PostgreSQL 在功能上更强大,但 MySQL 依然在特定场景下具有不可替代的优势,并被广泛使用。2)在 MySQL 中,如果事务未提交,其他事务看到的是“脏读”或“不可重复读”(取决于隔离级别)。1)在 PostgreSQL 中,即使你在写数据,别人也可以读取“之前的状态”。
2025-12-22 08:27:07
41
转载 魔搭社区介绍
魔搭社区(ModelScope)是由阿里达摩院联手中国计算机学会(CCF)开源发展委员会于2022年11月在云栖大会推出的AI大模型开源社区,定位为聚焦多模态AI模型的开源平台,覆盖文本、图像、语音、视频等模态,提供从模型训练到部署的全流程服务。截至2025年10月,社区已汇聚超12万个开源模型和5500余项MCP服务,服务全球200余个国家超过2000万用户,成为我国最大的AI开源社区。2025年上线国际版并发布科学智能专区与AIGC创作引擎FlowBench。
2025-12-19 17:38:54
103
转载 ESP分区
取决于电脑的启动模式。出现这种情况一般是由于没有重新分区或是分区安装后没有自动修复引导,我们可以用diskgenius分区检查esp分区中是否存在linux系统的引导,如果有说明没有重新分区或没有自动修复引导,我们可以手动格式化esp分区后再用小兵pe进行修复引导即可。一般情况我们可以打开diskgenius分区工具,可以看到gpt分区完成后有一个esp分区,该分区就是uefi的引导分区,默认情况工具会自动选择引导分区,如果引导分区不对我们可以手动选择。为何说它是UEFI引导下的GPT分区必须的分区?
2025-12-18 09:44:55
49
转载 王小云院士真地破解了 MD5 吗
MD5(Message-Digest Algorithm 5)是一种被广泛使用的消息摘要算法,也称为哈希算法、散列算法或杂凑算法,可以产生出一个定长的 128 位(16 字节)的散列值(Hash Value),一般用于数字签名以确保信息传输完整性与密码的加密存储。MD5 由美国密码学家罗纳德·李维斯特(Ronald Linn Rivest)设计,于 1992 年公开,用以取代 MD4 算法。
2025-12-18 09:10:02
61
转载 国密算法全家桶:一文认清 SM 系列 “安全卫士”
国密算法是国家密码管理局制定的一系列国产商用密码算法,用于摆脱对国外密码技术的过度依赖。主要有以下算法在国家密码管理局官网可查看相关加密算法公开资料。
2025-12-18 08:52:49
31
转载 数字签名与数字证书
概括的说,Hash算法的首要目标是保证数据的完整性(类似CRC算法,也是用来保证数据的完整性),对于M任何一位或者几位的改变,都将极大地改变Hash值(摘要)。此时,苏珊实际拥有的是道格的公钥,但是她还以为这是鲍勃的公钥。13、苏珊收信后,用CA的公钥解开数字证书,如果证书验证有效(证书的验证也和前面苏珊对鲍勃的签名验证过程一样,只不过这里用的是CA的公钥),那么就可以确认证书的内容有效,没有被篡改。这里要强调的是,在鲍勃的私钥没有泄露的情况下,这封信就是安全的,即使落在别人手里,别人也无法解密出来。
2025-12-18 08:31:22
18
转载 什么是云原生
云原生技术有利于各组织在公有云、私有云和混合云等新型动态环境中,构建和运行可弹性扩展的应用。云原生的代表技术包括容器、服务网格、微服务、不可变基础设施和声明式API。这些技术能够构建容错性好、易于管理和便于观察的松耦合系统。结合可靠的自动化手段,云原生技术使工程师能够轻松地对系统做出频繁和可预测的重大变更。
2025-12-17 16:10:30
56
转载 28 个 RAG 问题全解析
RAG,全称 Retrieval-Augmented Generation,是一种结合“外部知识检索”和“大语言模型生成”的混合架构。它先从知识库中检索相关文档,再让模型基于这些文档生成回答。
2025-12-17 15:19:32
25
转载 containerd.io、docker-ce、docker-ce-cli、docker-buildx-plugin、docker-compose-plugin、docker.io
关于组件安装包,可查看官网:https://download.docker.com/linux/ubuntu/dists/focal/pool/stable/amd64/是Docker容器运行时的核心组件之一,它负责管理和运行容器。它提供了容器的生命周期管理、镜像管理、网络管理等功能。docker-ce是Docker Community Edition的缩写,是Docker的社区版本。它是一个开源的容器化平台,提供了构建、发布和运行容器的工具和服务。
2025-12-17 09:34:25
33
转载 交换机上各种接口
光纤接口类型很多,SC光纤接口主要用于局网交换环境,在一些高性能千兆交换机和路由器上提供了这种接口,它与RJ-45接口看上去很相似,不过SC接口显得更扁些,其明显区别还是里面的触片,如果是8条细的铜触片,则是RJ-45接口,如果是一根铜柱则是SC光纤接口。从图中可以看出,两台交换机的Console端口不一样,上图中是一个“母”头9孔“D”形接口,而下图是一个“公”头9针“D”型接口,它们俗称为“DB-9”接口,但都是用进行交换机配置的。交换机的接口非常丰富,这里是一些整理的资料,与大家分享。
2025-12-15 18:00:53
41
转载 winscp
使用WinSCP,用户可以管理他们的文件,同步目录,甚至远程编辑文件。5、文件管理功能:WinSCP允许您在本地和远程计算机之间进行文件和文件夹的复制、移动、重命名和删除操作。1、远程编辑:您可以使用WinSCP在远程计算机上编辑文件,而无需将文件下载到本地计算机。4、支持多种协议:WinSCP支持多个文件传输协议,包括SFTP、SCP、FTPS和FTP。3、脚本支持:WinSCP支持使用命令行参数和批处理文件编写脚本,来自动化文件传输和其他操作。您可以设置同步规则,使得在两个目录中的文件保持一致。
2025-12-12 11:58:46
46
转载 推荐系统技术演进趋势:召回->排序->重排
推荐系统技术,总体而言,与NLP和图像领域比,发展速度不算太快。不过最近两年,由于深度学习等一些新技术的引入,总体还是表现出了一些比较明显的技术发展趋势。在写技术趋势前,照例还是对推荐系统的宏观架构做个简单说明,以免读者迷失在技术细节中。实际的工业推荐系统,如果粗分的化,经常讲的有两个阶段。根据用户部分特征,从海量的物品库里,快速找回一小部分用户潜在感兴趣的物品排序环节可以融入较多特征,使用复杂模型,来精准地做个性化推荐。当然,这是传统角度看推荐这个事情。
2025-12-09 10:14:39
100
1
转载 机器视觉基础—双目相机
人之所以能够感受到立体视觉,是因为人的左右眼之间有6到7cm的间隔,左眼与右眼看到的影像会有细微的差别,所以我们很容易判断。也就是单个相机是无法获得上面的那个目标的深度信息的。为了获得深度我们可以使用两个相机的两条射线来获得深度的信息。对于下面的一副图来说我们的c和c’表示的是相机的光心。我们通过主动相机估计出来的深度图结构也更加的完整,在拍摄的时候。我们多视几何的基础就在于是需要不同的相机拍摄的同一个物体的视场是由重合的区域的。就需要之前学过的一些特征点匹配的算法了就比如之前的SIFT算法等。
2025-12-08 15:38:49
115
转载 针式打印机的使用与维护
该方法必须在2台以上同类型地打印机中使用,可以整台打印机互相替换使用,以确定打印机是否有故障存在,也可以在已经确认某台打印机已存在故障的情况下,根据逻辑电路工作原理,替换打印机内的某一个整件,如打印头、接口、主逻辑控制板、电源等,以确定发生故障的部位。色带不仅影响打印的质量,而且对打印头的寿命也很有影响,色带中的带基及油墨中的色剂固体颗粒都会磨损打印针,尤其是带基的平整度差(单位面积内的网目,即经纬线的数目不够或不均匀)会对打印针造成磨损,甚至刮断打印针。目前,计算机中的并行接口主要作为打印机端口使用。
2025-12-02 12:02:48
78
转载 PageOffice国产版(麒麟系统)与Window版的区别
随着国产软件的推广,PageOffice针对银河麒麟和中标麒麟操作系统推出了支持WPS的国产版,提供与Windows版相似的在线编辑体验。开发者可无缝迁移,但在客户端安装和VBA接口调用上有区别。详细集成步骤可在卓正软件官网获取。自国家大力推广国产软件以来,银河麒麟和中标麒麟操作系统在软硬件适配方面不断拓展,整个生态环境日渐完善,已经基本满足政府、企业等日常办公需求。
2025-12-02 11:09:52
92
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅