- 博客(223)
- 资源 (1)
- 收藏
- 关注
原创 Dataverse:构建数据共享的新纪元
开放源代码:Dataverse 是一个完全开源的项目,任何人都可以自由使用、修改和分发。数据管理与分享:支持数据集的上传、版本控制、引用等功能,便于数据的共享和再利用。灵活的数据组织:采用多层次的组织结构,可以创建包含其他 Dataverse 的 Dataverse。标准化与互操作性:遵循国际标准,支持与其他数据存储库和服务的集成。用户友好的界面:提供直观易用的用户界面,方便非技术人员使用。学术引用:每个数据集都有详细的元数据和引用信息,确保数据创造者的学术贡献得到认可。
2024-08-28 14:57:55 876
原创 大模型的训练过程
大模型的训练是一个复杂的过程,涉及多个步骤和技术。下面我将概述大模型训练的主要流程,包括预训练、微调等关键阶段,并解释一些常见的技术和策略。
2024-08-15 20:44:18 441
原创 DBeaver 和 PL/SQL Developer 都是非常流行的工具,它们各自有针对 Oracle 数据库的不同优势和局限性
DBeaver 和 PL/SQL Developer 都是非常流行的工具,它们各自有针对 Oracle 数据库的不同优势和局限性。
2024-08-13 21:21:14 427
原创 在 Oracle 中,要查询表的大小、索引的大小、分区的大小、大字段(LOBs)的大小以及单个表占用的空间总大小
在 Oracle 中,要查询表的大小、索引的大小、分区的大小、大字段(LOBs)的大小以及单个表占用的空间总大小,您可以使用以下 SQL 查询。请注意,这些查询需要您具有足够的权限来访问 Oracle 的数据字典视图。
2024-08-12 10:29:22 1191
原创 2023Q1 A股市场投资者持股结构(测算值,流通市值口径)
2023Q1保险资金持有A股股票和证券投资基金共3.32万亿,占总市值比为3.52%(上季度为3.18万亿,占比3.63%); 2023Q1外资持有A股总市值3.49万亿,占总市值比为3.69%(上季度末为3.20万亿,占比3.65%),持股规模和占比环比。 境外机构及个人:2016年末境外机构和个人持有流通股市值0.65万亿(占比1.66%),至2023Q1持股市值增长至3.03万。 证券机构:根据中基协数据,2016年末证券机构持有流通股市值0.53万亿(占比1.40%);
2024-07-12 10:13:15 735
原创 沪深A股交易最佳交易金额研究
④证管费:按成交金额的0.02%(十万分之二)双向收取,证监会收取(交易所代收);⑤经手费:2023年8月28日起下调为按成交金额的0.0341%。(十万分之三点四一)双向收取,交易所收取;成交金额=成交股数*成交价格;交易范围误差内 单笔金额最佳在(2.5w-3w);(十万分之一)收取,买卖均收取;①佣金:不高于成交金额的3%(千分之三),买卖均收取;(万分之五),卖出时收取,代税务机关收取;根据查表 当券商佣金为万一时,最佳交易金额为3w;②印花税:2023年8月28日起,按成交金额的。
2024-07-10 13:09:17 525
原创 开源的数据库数据图形可视化项目
这些开源的数据库数据图形可视化项目都具有广泛的功能和可扩展性,可以满足不同场景下对数据可视化的需求。根据你的具体需求和技术偏好,选择最适合的项目并根据文档和示例进行使用和定制。这些开源的数据库数据图形可视化项目都具有广泛的功能和可扩展性,可以满足不同场景下对数据可视化的需求。根据你的具体需求和技术偏好,选择最适合的项目并根据文档和示例进行使用和定制。
2024-07-07 19:19:33 511
原创 VisActor vs ECharts: 哪个更适合你的数据可视化需求?
ECharts是由百度开发的一款图表库,以其丰富的图表类型和强大的配置选项著称。ECharts支持多种图表类型,包括折线图、柱状图、饼图、散点图等,并且能够处理复杂的数据可视化需求。
2024-07-02 19:53:21 763
原创 Rill Data:实时数据分析的未来
Rill Data 通过其高效的实时数据处理、强大的数据可视化和简洁的开源项目,帮助企业和开发者实现了实时数据分析的快速落地。无论你是需要实时监控系统状态、分析用户行为,还是处理 IoT 设备数据,Rill Data 都能提供专业的解决方案。访问其开源项目,开始更深层次的探索,体验实时数据分析的强大力量!希望这一篇文章能让你更好地了解 Rill Data 的优势和应用,并激励你在实时数据分析的道路上迈出坚定的一步。
2024-06-26 20:38:51 688
原创 Apache Doris主要应用场景和一些实际案例
Apache Doris通过其卓越的性能和灵活性,已经成为多个行业中的实时数据分析和业务报表生成的重要工具。无论是互联网企业、传媒公司还是电商平台,Doris都能够胜任各种复杂场景的数据处理和分析需求,帮助企业更好地利用数据价值,提升业务运营效率和市场竞争力。
2024-06-26 19:11:41 1100
原创 轻松构建企业级数据管理平台:探索 DataHub
DataHub 是由 LinkedIn 开发的一个开源项目,旨在帮助企业建立一个完整的数据发现和管理平台。它通过集中化的数据目录系统,提供全面的数据治理、元数据管理和数据血缘关系分析等功能。DataHub 的灵活性和可扩展性使得它成为大中小企业的理想选择。DataHub 作为一个功能强大且灵活的数据管理平台,能够帮助企业有效地管理和发现其数据资产。无论您的企业规模如何,DataHub 都能提供强大的数据治理、元数据管理和数据血缘分析功能,助力企业实现数据驱动的业务决策。
2024-06-20 16:13:43 884
原创 国内公开数据
国内有许多政府部门和互联网平台提供CSV、JSON、Parquet等格式的开放数据,供公众下载和使用。这些数据集涵盖了经济、社会、环境等多个领域。利用这些资源,可以有效开展数据分析、研究和开发工作。
2024-06-20 14:42:22 657
原创 Using DuckDB-WASM for in-browser Data EngineeringRapid prototyping SQL Queries & Data Visualization
【代码】Using DuckDB-WASM for in-browser Data EngineeringRapid prototyping SQL Queries & Data Visualization。
2024-06-20 11:18:19 418
原创 DuckDB 相关开源项目
DuckDB 1.0.0 于 2024-06-03 发布:请参阅。支持 DuckDB 的 SQL 客户端和 IDE。是一个分析型进程内 SQL 数据库管理系统。精选的 DuckDB 库、工具和资源列表。由 DuckDB 提供支持的工具。由 DuckDB 提供支持的库。由 DuckDB 支持的项目。上与此页面的内容聊天。很棒的 DuckDB。
2024-06-20 10:48:14 513
原创 抖音(TikTok)视频存储的一般性备选方案
抖音(TikTok)作为全球领先的短视频平台,其视频存储解决方案需要涵盖海量视频数据的存储、快速高效的传输、内容分发以及安全性等多个方面。
2024-06-19 15:08:36 1461 1
原创 存储、管理和展示多媒体文件
多媒体文件的存储、管理和展示方式有多种选择,企业和开发人员可以根据实际需求选择合适的方案。对于大规模多媒体文件存储,云存储和 CDN 是较佳的选择,而在管理方面,数据库对于元数据的管理和权限控制是常见的做法。展示方面,可以采用网页、移动应用或嵌入式设备展示技术,实现灵活便捷的多媒体内容呈现。
2024-06-19 11:27:07 875
原创 国内 大数据平台
国内有多个类似阿里云天池大数据平台的数据集平台,这些平台主要提供开源数据集、数据竞赛、数据分析工具等资源,帮助数据科学家、研究人员和企业进行数据分析与机器学习开发。
2024-06-18 16:53:31 792
原创 开源的数据资产管理平台
开源的数据资产管理平台各有优缺点,企业可以根据自身的数据规模、生态系统和具体需求选取合适的工具。:适合追求全面数据治理的企业。Amundsen:适合注重数据搜索和发现的团队。Metacat:适合多数据源和复杂系统环境。DataHub:适合实时数据系统管理和数据血统追踪。:适合需要全面元数据管理和数据目录的公司。选择合适的平台能帮助企业更好地管理和利用数据资产,提升数据的价值和业务决策能力。
2024-06-18 11:06:13 1014
原创 对象存储(Object Storage) 适用性
对象存储(Object Storage)是一种基于对象的存储模型,主要用于存储非结构化数据,如图片、视频、备份文件、大数据分析文件等。与文件存储和块存储相比,对象存储有独特的优势和一些局限性。
2024-06-18 10:46:47 545
原创 MinIO:构建未来的开源对象存储解决方案
MinIO以其开源、高性能和兼容性的特点,在对象存储领域占据了一席之地。它不仅为企业和开发者提供了一个强大的数据存储解决方案,也为未来的数据管理和分析打开了新的可能性。随着MinIO的不断发展和完善,我们有理由相信,它将继续在存储技术的前沿领域发挥重要作用。
2024-06-17 20:45:52 363
转载 推荐一个有温度有深度的个人博客--【小土刀 2.0】
这个系列就是我的学习笔记,在原有课程的基础上,我会加入自己的理解,并把对应的代码同步到 Github 上。生活简单规律,阅读、思考和写作占据了我大部分的时间,标准吃货,学过几年乐器,喜欢 Soul Music 和各类运动,讨厌人多及嘈杂的地方。这个系列是我学习的过程和笔记,对原有的 Jupyter Notebook 形式做了一定的修改,方便直接在命令行中运行和交互。联邦学习作为机器学习的又一重要分支,力求在保护隐私的前提下提高模型效果,将在金融、医疗、政府中起到重要作用,事不宜迟,一起来学习吧。
2024-06-13 00:49:37 74
原创 Hugging Face Hub 使用DuckDB进行分析
数据集查看器会自动将Hub上的所有公开数据集转换为Parquet文件,您可以通过点击数据集页面顶部的“Auto-converted to Parquet”按钮查看。您还可以通过一个简单的HTTP调用访问Parquet文件URL列表。urls# 输出:")")连接后,您可以开始编写SQL查询!count(*),FROM ' {url } 'count(*),FROM ' {url } 'count(*),FROM ' {url } '了解更多,请查看文档。
2024-06-12 20:53:32 786
原创 理解SIMD技术:高效并行计算的利器
与传统的SISD(Single Instruction, Single Data)架构相比,SIMD可以显著提高数据处理效率,尤其是在需对大量数据进行相同操作的场景下。随着硬件和编译器技术的不断进步,SIMD的应用范围将会更加广泛,发挥出越来越大的潜力。比如,假设我们有四组数据需要做相同的运算,在传统的SISD架构下,需要执行四次指令,而使用SIMD技术,只需要一次指令即可完成四组数据的运算。通过本文的介绍,希望能让读者更好地理解SIMD技术,并在实际开发中得以应用,提升计算效率和性能。
2024-06-12 20:44:48 3867
原创 国内的大模型数据集仓库
这些数据集大多都受到广泛的科研和商业应用,适合多种NLP及CV任务。国内的研究机构和公司在这些数据集的构建和维护上投入了大量资源,用户可以根据具体的研究需求选择适合的数据集进行模型训练和评估。
2024-06-12 20:41:15 835
原创 开源小尺寸大模型
在选择适合的小尺寸大模型时,需综合考虑模型的适用任务、硬件资源需求以及实际应用场景。国内模型:如讯飞小BERT和百度的ERNIE Tiny在中文语义理解和应用上表现优秀,适合需要高精度且面向中文的应用场景。国外模型:如DistilBERT和ALBERT是通用性较强的模型,适用于多种自然语言处理任务。对于个人PC用户而言,轻量级模型如DistilBERT、TinyBERT和MobileBERT是较为理想的选择,既能满足多种应用需求,又不需要过多的计算资源。
2024-06-12 20:30:18 970
原创 中文大数据训练的数据集
上述数据集涵盖了广泛的领域,包括新闻、社交媒体、评论、百科问答、机器翻译等。不同的数据集针对不同的NLP任务,可以根据需要选择适合的数据集进行模型训练。在选择适合的高质量数据集是训练中文大模型的关键。上述列举的资源涵盖了多个领域和应用场景,可以根据具体需求对数据进行二次处理和清洗,以提高训练效果。在获取和使用这些数据集时,也要注意遵守相关的数据使用政策和版权规定。
2024-06-12 20:18:42 2469 1
原创 大模型的训练过程
大模型的训练是一个复杂而严谨的过程,涉及数据准备、模型设计、训练配置、分布式训练、模型评估和部署等多个环节。随着计算资源和算法的进步,未来的大模型训练将变得更高效、更智能,为各类应用场景提供更强大的支持。
2024-06-12 20:10:02 947
原创 DuckDB 是一个嵌入式矢量化内存数据库管理系统
DuckDB是一个嵌入式矢量化内存数据库管理系统(DBMS),旨在提供高性能分析查询处理。DuckDB 是为数据科学家、研究人员和开发人员设计的,为他们提供了执行复杂分析任务的能力,而无需设置或维护传统的数据库服务器。DuckDB 是一个具有高性能和低复杂性的嵌入式数据库解决方案,特别适用于数据分析任务。其轻量级的设计和矢量化执行引擎使其在数据分析领域具有显著的优势。随着技术的进步和社区的发展,DuckDB 在未来有望成为数据分析领域的重要工具。
2024-06-12 16:00:57 817
原创 JSQLParser用于解析SQL语句并创建抽象语法树(AST)
JSQLParser是一个Java库,用于解析SQL语句并创建抽象语法树(AST)。该库非常强大,可以解析大多数标准SQL语法,并支持许多数据库的专用语法。
2024-06-05 09:46:22 1009
原创 springboot获取当前数据库连接
通过上述方法,可以在 Spring 应用中获取当前的 DataSource URL,具体选用哪种方法取决于你项目的具体配置和使用的连接池类型。
2024-06-01 14:51:26 1837
原创 使用Java和MyBatis获取表头与数据
在数据处理与展示中,经常需要将数据库查询结果中的表头(列名)与实际数据提取出来。本文将介绍如何通过Java的JDBC和MyBatis来实现这一需求。通过以上两种方法,可以分别在JDBC和MyBatis中从数据库查询结果中提取表头和数据。希望这些内容能对你的开发工作有所帮助。在MyBatis中,可以通过映射配置文件和DAO层代码来实现获取表头与数据的功能。对象获取表头和数据。在JDBC中,可以使用。
2024-05-29 17:09:00 1061
原创 LinkStack 是一个高度可定制的链接共享平台
使用 LinkStack,用户可以轻松链接到自己的自定义页面,并让关注者在一个方便的位置访问他们需要的所有链接。LinkStack 与其他链接管理平台的不同之处在于它的灵活性,它允许用户将链接托管在自己的网络服务器或网络托管提供商上。此外,LinkStack 还允许其他用户注册并创建自己的链接,使其成为需要管理多个链接的企业和组织的理想解决方案。LinkStack 是一个独特的平台,为在线管理和共享链接提供有效的解决方案。我们的平台提供许多与商业链接共享平台相同的功能和选项,同时保持隐私和自主的价值观。
2024-05-27 00:45:55 1094
原创 BIO开源项目从源码性能、拓展性和中国本土化程度上的比较
源代码性能:各工具中,LinkStack 和 BioDrop 的源码性能较为优越,适合需要稳定和高效展示的需求。拓展性:LinkStack 和 ClickWhale 提供了良好的拓展性,适合有更多功能需求的用户。中国本土化程度:Kytelink 支持多种自定义选项,适合需要高度本地化的企业使用;LittleLink 简单易用,虽然功能有限但易于验证。根据具体需求选取合适的工具,特别是考虑未来的拓展需求及本土化需要,可以更好地满足各类用户和企业需求。
2024-05-26 15:22:06 585
原创 bio链接工具的整理和比较
尽管市场已有多个知名品牌,但bio链接工具的发展潜力仍然巨大,尤其是在数据分析和用户行为追踪领域。开发更具定制化和智能化的bio页面工具,可以更好地服务内容创作者和品牌商家,提高转换率和用户粘性。通过结合数据隐私保护和内容合规性,国内开发者在竞争激烈的市场中依然有机会脱颖而出。
2024-05-26 14:22:15 388
原创 【国内创业机会 -- Bio简介页(Bio Page) 】Linktree本土化开发
Bio简介页的由来Bio简介页(Bio Page)最早由社交媒体应用和工具引入,目的是帮助用户在一个单一的页面上集中展示多个链接和内容。这种工具的兴起,特别是像Linktree这样的平台,始于用户对在社交媒体简介中展示多个链接的需求。单个社交媒体平台往往只能在简介中放置一个链接,但内容创作者、企业和品牌通常有多个链接需要展示,比如个人网站、最新的博客文章、视频内容、在线商店等。
2024-05-26 14:07:54 1163
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人