自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

qq_34068440的博客

来来。我给你讲个故事

  • 博客(223)
  • 资源 (1)
  • 收藏
  • 关注

原创 Dataverse:构建数据共享的新纪元

开放源代码:Dataverse 是一个完全开源的项目,任何人都可以自由使用、修改和分发。数据管理与分享:支持数据集的上传、版本控制、引用等功能,便于数据的共享和再利用。灵活的数据组织:采用多层次的组织结构,可以创建包含其他 Dataverse 的 Dataverse。标准化与互操作性:遵循国际标准,支持与其他数据存储库和服务的集成。用户友好的界面:提供直观易用的用户界面,方便非技术人员使用。学术引用:每个数据集都有详细的元数据和引用信息,确保数据创造者的学术贡献得到认可。

2024-08-28 14:57:55 876

原创 大模型的训练过程

大模型的训练是一个复杂的过程,涉及多个步骤和技术。下面我将概述大模型训练的主要流程,包括预训练、微调等关键阶段,并解释一些常见的技术和策略。

2024-08-15 20:44:18 441

原创 DBeaver 和 PL/SQL Developer 都是非常流行的工具,它们各自有针对 Oracle 数据库的不同优势和局限性

DBeaver 和 PL/SQL Developer 都是非常流行的工具,它们各自有针对 Oracle 数据库的不同优势和局限性。

2024-08-13 21:21:14 427

原创 在 Oracle 中,要查询表的大小、索引的大小、分区的大小、大字段(LOBs)的大小以及单个表占用的空间总大小

在 Oracle 中,要查询表的大小、索引的大小、分区的大小、大字段(LOBs)的大小以及单个表占用的空间总大小,您可以使用以下 SQL 查询。请注意,这些查询需要您具有足够的权限来访问 Oracle 的数据字典视图。

2024-08-12 10:29:22 1191

原创 2023Q1 A股市场投资者持股结构(测算值,流通市值口径)

 2023Q1保险资金持有A股股票和证券投资基金共3.32万亿,占总市值比为3.52%(上季度为3.18万亿,占比3.63%); 2023Q1外资持有A股总市值3.49万亿,占总市值比为3.69%(上季度末为3.20万亿,占比3.65%),持股规模和占比环比。 境外机构及个人:2016年末境外机构和个人持有流通股市值0.65万亿(占比1.66%),至2023Q1持股市值增长至3.03万。 证券机构:根据中基协数据,2016年末证券机构持有流通股市值0.53万亿(占比1.40%);

2024-07-12 10:13:15 735

原创 java解析c结构体的数据

原创2024-01-18 10:17:27©著作权文章标签文章分类阅读数。

2024-07-10 23:36:53 783

原创 沪深A股交易最佳交易金额研究

④证管费:按成交金额的0.02%(十万分之二)双向收取,证监会收取(交易所代收);⑤经手费:2023年8月28日起下调为按成交金额的0.0341%。(十万分之三点四一)双向收取,交易所收取;成交金额=成交股数*成交价格;交易范围误差内 单笔金额最佳在(2.5w-3w);(十万分之一)收取,买卖均收取;①佣金:不高于成交金额的3%(千分之三),买卖均收取;(万分之五),卖出时收取,代税务机关收取;根据查表 当券商佣金为万一时,最佳交易金额为3w;②印花税:2023年8月28日起,按成交金额的。

2024-07-10 13:09:17 525

原创 闲鱼123456

【闲鱼】https://m.tb.cn/h.gScw7Em?tk=dtBc3bfhFEt HU0025 「能省会赚上闲鱼!

2024-07-09 22:52:48 441

原创 开源的数据库数据图形可视化项目

这些开源的数据库数据图形可视化项目都具有广泛的功能和可扩展性,可以满足不同场景下对数据可视化的需求。根据你的具体需求和技术偏好,选择最适合的项目并根据文档和示例进行使用和定制。这些开源的数据库数据图形可视化项目都具有广泛的功能和可扩展性,可以满足不同场景下对数据可视化的需求。根据你的具体需求和技术偏好,选择最适合的项目并根据文档和示例进行使用和定制。

2024-07-07 19:19:33 511

原创 知名的以图叙事开源平台和工具

以图叙事是一种通过图表和图形来讲述故事或传达信息的方式,使复杂的数据更易于理解和更有吸引力。

2024-07-06 15:16:52 825

原创 VisActor vs ECharts: 哪个更适合你的数据可视化需求?

ECharts是由百度开发的一款图表库,以其丰富的图表类型和强大的配置选项著称。ECharts支持多种图表类型,包括折线图、柱状图、饼图、散点图等,并且能够处理复杂的数据可视化需求。

2024-07-02 19:53:21 763

原创 Rill Data:实时数据分析的未来

Rill Data 通过其高效的实时数据处理、强大的数据可视化和简洁的开源项目,帮助企业和开发者实现了实时数据分析的快速落地。无论你是需要实时监控系统状态、分析用户行为,还是处理 IoT 设备数据,Rill Data 都能提供专业的解决方案。访问其开源项目,开始更深层次的探索,体验实时数据分析的强大力量!希望这一篇文章能让你更好地了解 Rill Data 的优势和应用,并激励你在实时数据分析的道路上迈出坚定的一步。

2024-06-26 20:38:51 688

原创 Apache Doris主要应用场景和一些实际案例

Apache Doris通过其卓越的性能和灵活性,已经成为多个行业中的实时数据分析和业务报表生成的重要工具。无论是互联网企业、传媒公司还是电商平台,Doris都能够胜任各种复杂场景的数据处理和分析需求,帮助企业更好地利用数据价值,提升业务运营效率和市场竞争力。

2024-06-26 19:11:41 1100

原创 轻松构建企业级数据管理平台:探索 DataHub

DataHub 是由 LinkedIn 开发的一个开源项目,旨在帮助企业建立一个完整的数据发现和管理平台。它通过集中化的数据目录系统,提供全面的数据治理、元数据管理和数据血缘关系分析等功能。DataHub 的灵活性和可扩展性使得它成为大中小企业的理想选择。DataHub 作为一个功能强大且灵活的数据管理平台,能够帮助企业有效地管理和发现其数据资产。无论您的企业规模如何,DataHub 都能提供强大的数据治理、元数据管理和数据血缘分析功能,助力企业实现数据驱动的业务决策。

2024-06-20 16:13:43 884

原创 国内公开数据

国内有许多政府部门和互联网平台提供CSV、JSON、Parquet等格式的开放数据,供公众下载和使用。这些数据集涵盖了经济、社会、环境等多个领域。利用这些资源,可以有效开展数据分析、研究和开发工作。

2024-06-20 14:42:22 657

原创 Using DuckDB-WASM for in-browser Data EngineeringRapid prototyping SQL Queries & Data Visualization

【代码】Using DuckDB-WASM for in-browser Data EngineeringRapid prototyping SQL Queries & Data Visualization。

2024-06-20 11:18:19 418

原创 DuckDB 相关开源项目

DuckDB 1.0.0 于 2024-06-03 发布:请参阅。支持 DuckDB 的 SQL 客户端和 IDE。是一个分析型进程内 SQL 数据库管理系统。精选的 DuckDB 库、工具和资源列表。由 DuckDB 提供支持的工具。由 DuckDB 提供支持的库。由 DuckDB 支持的项目。上与此页面的内容聊天。很棒的 DuckDB。

2024-06-20 10:48:14 513

原创 抖音(TikTok)视频存储的一般性备选方案

抖音(TikTok)作为全球领先的短视频平台,其视频存储解决方案需要涵盖海量视频数据的存储、快速高效的传输、内容分发以及安全性等多个方面。

2024-06-19 15:08:36 1461 1

原创 存储、管理和展示多媒体文件

多媒体文件的存储、管理和展示方式有多种选择,企业和开发人员可以根据实际需求选择合适的方案。对于大规模多媒体文件存储,云存储和 CDN 是较佳的选择,而在管理方面,数据库对于元数据的管理和权限控制是常见的做法。展示方面,可以采用网页、移动应用或嵌入式设备展示技术,实现灵活便捷的多媒体内容呈现。

2024-06-19 11:27:07 875

原创 国内 大数据平台

国内有多个类似阿里云天池大数据平台的数据集平台,这些平台主要提供开源数据集、数据竞赛、数据分析工具等资源,帮助数据科学家、研究人员和企业进行数据分析与机器学习开发。

2024-06-18 16:53:31 792

原创 开源的数据资产管理平台

开源的数据资产管理平台各有优缺点,企业可以根据自身的数据规模、生态系统和具体需求选取合适的工具。:适合追求全面数据治理的企业。Amundsen:适合注重数据搜索和发现的团队。Metacat:适合多数据源和复杂系统环境。DataHub:适合实时数据系统管理和数据血统追踪。:适合需要全面元数据管理和数据目录的公司。选择合适的平台能帮助企业更好地管理和利用数据资产,提升数据的价值和业务决策能力。

2024-06-18 11:06:13 1014

原创 对象存储(Object Storage) 适用性

对象存储(Object Storage)是一种基于对象的存储模型,主要用于存储非结构化数据,如图片、视频、备份文件、大数据分析文件等。与文件存储和块存储相比,对象存储有独特的优势和一些局限性。

2024-06-18 10:46:47 545

原创 MinIO:构建未来的开源对象存储解决方案

MinIO以其开源、高性能和兼容性的特点,在对象存储领域占据了一席之地。它不仅为企业和开发者提供了一个强大的数据存储解决方案,也为未来的数据管理和分析打开了新的可能性。随着MinIO的不断发展和完善,我们有理由相信,它将继续在存储技术的前沿领域发挥重要作用。

2024-06-17 20:45:52 363

原创 探索Dagster:现代数据编排的利器

Pipeline Definition定义了管道的结构,包括Solid及其相互之间的依赖关系。

2024-06-13 01:03:19 1030

转载 推荐一个有温度有深度的个人博客--【小土刀 2.0】

这个系列就是我的学习笔记,在原有课程的基础上,我会加入自己的理解,并把对应的代码同步到 Github 上。生活简单规律,阅读、思考和写作占据了我大部分的时间,标准吃货,学过几年乐器,喜欢 Soul Music 和各类运动,讨厌人多及嘈杂的地方。这个系列是我学习的过程和笔记,对原有的 Jupyter Notebook 形式做了一定的修改,方便直接在命令行中运行和交互。联邦学习作为机器学习的又一重要分支,力求在保护隐私的前提下提高模型效果,将在金融、医疗、政府中起到重要作用,事不宜迟,一起来学习吧。

2024-06-13 00:49:37 74

原创 Hugging Face Hub 使用DuckDB进行分析

数据集查看器会自动将Hub上的所有公开数据集转换为Parquet文件,您可以通过点击数据集页面顶部的“Auto-converted to Parquet”按钮查看。您还可以通过一个简单的HTTP调用访问Parquet文件URL列表。urls# 输出:")")连接后,您可以开始编写SQL查询!count(*),FROM ' {url } 'count(*),FROM ' {url } 'count(*),FROM ' {url } '了解更多,请查看文档。

2024-06-12 20:53:32 786

原创 理解SIMD技术:高效并行计算的利器

与传统的SISD(Single Instruction, Single Data)架构相比,SIMD可以显著提高数据处理效率,尤其是在需对大量数据进行相同操作的场景下。随着硬件和编译器技术的不断进步,SIMD的应用范围将会更加广泛,发挥出越来越大的潜力。比如,假设我们有四组数据需要做相同的运算,在传统的SISD架构下,需要执行四次指令,而使用SIMD技术,只需要一次指令即可完成四组数据的运算。通过本文的介绍,希望能让读者更好地理解SIMD技术,并在实际开发中得以应用,提升计算效率和性能。

2024-06-12 20:44:48 3867

原创 国内的大模型数据集仓库

这些数据集大多都受到广泛的科研和商业应用,适合多种NLP及CV任务。国内的研究机构和公司在这些数据集的构建和维护上投入了大量资源,用户可以根据具体的研究需求选择适合的数据集进行模型训练和评估。

2024-06-12 20:41:15 835

原创 开源小尺寸大模型

在选择适合的小尺寸大模型时,需综合考虑模型的适用任务、硬件资源需求以及实际应用场景。国内模型:如讯飞小BERT和百度的ERNIE Tiny在中文语义理解和应用上表现优秀,适合需要高精度且面向中文的应用场景。国外模型:如DistilBERT和ALBERT是通用性较强的模型,适用于多种自然语言处理任务。对于个人PC用户而言,轻量级模型如DistilBERT、TinyBERT和MobileBERT是较为理想的选择,既能满足多种应用需求,又不需要过多的计算资源。

2024-06-12 20:30:18 970

原创 中文大数据训练的数据集

上述数据集涵盖了广泛的领域,包括新闻、社交媒体、评论、百科问答、机器翻译等。不同的数据集针对不同的NLP任务,可以根据需要选择适合的数据集进行模型训练。在选择适合的高质量数据集是训练中文大模型的关键。上述列举的资源涵盖了多个领域和应用场景,可以根据具体需求对数据进行二次处理和清洗,以提高训练效果。在获取和使用这些数据集时,也要注意遵守相关的数据使用政策和版权规定。

2024-06-12 20:18:42 2469 1

原创 大模型的训练过程

大模型的训练是一个复杂而严谨的过程,涉及数据准备、模型设计、训练配置、分布式训练、模型评估和部署等多个环节。随着计算资源和算法的进步,未来的大模型训练将变得更高效、更智能,为各类应用场景提供更强大的支持。

2024-06-12 20:10:02 947

原创 DuckDB 是一个嵌入式矢量化内存数据库管理系统

DuckDB是一个嵌入式矢量化内存数据库管理系统(DBMS),旨在提供高性能分析查询处理。DuckDB 是为数据科学家、研究人员和开发人员设计的,为他们提供了执行复杂分析任务的能力,而无需设置或维护传统的数据库服务器。DuckDB 是一个具有高性能和低复杂性的嵌入式数据库解决方案,特别适用于数据分析任务。其轻量级的设计和矢量化执行引擎使其在数据分析领域具有显著的优势。随着技术的进步和社区的发展,DuckDB 在未来有望成为数据分析领域的重要工具。

2024-06-12 16:00:57 817

原创 JSQLParser用于解析SQL语句并创建抽象语法树(AST)

JSQLParser是一个Java库,用于解析SQL语句并创建抽象语法树(AST)。该库非常强大,可以解析大多数标准SQL语法,并支持许多数据库的专用语法。

2024-06-05 09:46:22 1009

原创 springboot获取当前数据库连接

通过上述方法,可以在 Spring 应用中获取当前的 DataSource URL,具体选用哪种方法取决于你项目的具体配置和使用的连接池类型。

2024-06-01 14:51:26 1837

原创 使用Java和MyBatis获取表头与数据

在数据处理与展示中,经常需要将数据库查询结果中的表头(列名)与实际数据提取出来。本文将介绍如何通过Java的JDBC和MyBatis来实现这一需求。通过以上两种方法,可以分别在JDBC和MyBatis中从数据库查询结果中提取表头和数据。希望这些内容能对你的开发工作有所帮助。在MyBatis中,可以通过映射配置文件和DAO层代码来实现获取表头与数据的功能。对象获取表头和数据。在JDBC中,可以使用。

2024-05-29 17:09:00 1061

原创 Social login -- LittleLink

【代码】Social login -- LittleLink。

2024-05-27 00:49:48 440

原创 LinkStack 是一个高度可定制的链接共享平台

使用 LinkStack,用户可以轻松链接到自己的自定义页面,并让关注者在一个方便的位置访问他们需要的所有链接。LinkStack 与其他链接管理平台的不同之处在于它的灵活性,它允许用户将链接托管在自己的网络服务器或网络托管提供商上。此外,LinkStack 还允许其他用户注册并创建自己的链接,使其成为需要管理多个链接的企业和组织的理想解决方案。LinkStack 是一个独特的平台,为在线管理和共享链接提供有效的解决方案。我们的平台提供许多与商业链接共享平台相同的功能和选项,同时保持隐私和自主的价值观。

2024-05-27 00:45:55 1094

原创 BIO开源项目从源码性能、拓展性和中国本土化程度上的比较

源代码性能:各工具中,LinkStack 和 BioDrop 的源码性能较为优越,适合需要稳定和高效展示的需求。拓展性:LinkStack 和 ClickWhale 提供了良好的拓展性,适合有更多功能需求的用户。中国本土化程度:Kytelink 支持多种自定义选项,适合需要高度本地化的企业使用;LittleLink 简单易用,虽然功能有限但易于验证。根据具体需求选取合适的工具,特别是考虑未来的拓展需求及本土化需要,可以更好地满足各类用户和企业需求。

2024-05-26 15:22:06 585

原创 bio链接工具的整理和比较

尽管市场已有多个知名品牌,但bio链接工具的发展潜力仍然巨大,尤其是在数据分析和用户行为追踪领域。开发更具定制化和智能化的bio页面工具,可以更好地服务内容创作者和品牌商家,提高转换率和用户粘性。通过结合数据隐私保护和内容合规性,国内开发者在竞争激烈的市场中依然有机会脱颖而出。

2024-05-26 14:22:15 388

原创 【国内创业机会 -- Bio简介页(Bio Page) 】Linktree本土化开发

Bio简介页的由来Bio简介页(Bio Page)最早由社交媒体应用和工具引入,目的是帮助用户在一个单一的页面上集中展示多个链接和内容。这种工具的兴起,特别是像Linktree这样的平台,始于用户对在社交媒体简介中展示多个链接的需求。单个社交媒体平台往往只能在简介中放置一个链接,但内容创作者、企业和品牌通常有多个链接需要展示,比如个人网站、最新的博客文章、视频内容、在线商店等。

2024-05-26 14:07:54 1163

Fluence Developer Rewards 国内 每个账号收2000元 白名单

Fluence Developer Rewards 国内 每个账号收2000元 白名单

2024-05-07

阿里巴巴Java开发规范手册(冰冰老湿版)

阿里巴巴Java开发规范手册(冰冰老湿版),仅作分享 如有侵权 请告知

2017-02-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除