自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

HyperAI超神经

人工智能领域实验媒体,站在技术与人文的路口,读懂人工智能。

  • 博客(966)
  • 收藏
  • 关注

原创 【持续更新中!图像-文本对数据集汇总】Stable Diffusion 3 重磅开源,超全图像生成必备训练数据集、教程汇总

Stability AI 已经正式开源 Stable Diffusion 3(简称 SD3)!SD3 是一个图像生成模型,只要给定一段描述性的文字,就能够创造出与之匹配的视觉作品。下图就是由 SD3 生成的图像。* prompt史诗级动漫作品:一位巫师在夜晚的山顶上向黑暗的天空施放宇宙咒语,咒语上写着「Stable Diffusion 3」,由五彩缤纷的能量组成在 SD3 的背后,是庞大的图像-文...

2024-06-13 11:00:53 1522

原创 【持续更新中!气象数据集汇总】气象局首次发布训练数据目录!CAMELS 美国天文气象数据集等上线官网

该数据集为论文 「Global prediction of extreme floods in ungauged watersheds」的研究数据,主要内容为 AI 模型生成的洪水重新分析 (1984-2021) 和重新预测 (2014-2021) 数据以及相应的 GloFAS 基准数据。数据集可鼓励在天气领域进行机器学习研究,方便在理解和减轻气候变化影响方面的工作。SEVIR 将多种天气传感模式组合并整合成一个单一的、可访问的数据集,该数据集可在云端免费访问,可供气象学家、数据科学家和其他研究人员使用。

2024-05-30 16:18:00 888

原创 【持续更新中,图像分割数据集】字节发布 COCONut 入选 CVPR 2024,立即体验 Segment Anything 分割万物!|持续更新中!

随着计算机视觉技术的不断发展,图像分割在诸多领域展现出重要的应用价值。近年来,各种图像分割数据集如雨后春笋般涌现。上个月,字节跳动发布了首个大规模全景图像分割数据集「COCONut」,为这一领域的研究注入了新鲜血液。HyperAI超神经本周汇总了 10 个优质的图像分割数据集进行汇总和分析,以更好地推动相关研究的进展。除此之外,GitHub 上超火的项目「Segment Anything 分割万物...

2024-05-09 15:09:25 778 1

原创 【持续更新中!数学数据集汇总】天才博士陶哲轩力荐数据集!含代码、中文竞赛题目、正向逆向问答对等

数学数据集持续更新中,建议收藏!欢迎投稿优质数据集

2024-04-23 20:19:00 1070

原创 权威期刊Cell Discovery新成果!上海交大洪亮团队提出CPDiffusion模型,超低成本、全自动设计功能型蛋白质

他们曾与上海人工智能实验室的谈攀研究员合作,提出了一个基于蛋白质预训练模型的微调训练方法 FSFP,该方法能在只利用 20 个随机湿实验数据的情况下,高效训练蛋白质预训练模型,大幅提高模型的单点突变预测阳性率,可适用于蛋白质适配性的小样本学习,在实际应用中显示出了巨大的潜力。该框架结合蛋白质骨架结构、活性位点等多种生成条件,能够以非常低的训练成本、数据成本,学习蛋白质的序列、结构与功能之间的隐含映射关系,进而生成多样化的蛋白质序列,这些生成的序列能够在湿实验验证中以极高的成功率通过测试。

2024-09-24 17:14:12 209

原创 可智能生成刺绣图案!武汉纺织大学可视计算与数字纺织团队发布首个多缝线刺绣生成对抗网络模型,被顶级期刊 TVCG 录用

作为非物质文化遗产的重要代表,我国的刺绣艺术历史悠久、技艺精湛,工匠通过不同的针脚、各色的丝线,将主题丰富的图案活灵活现地展示于一方绣布之上。也就是说,生成的图像与输入图像之间的颜色分布存在巨大的差异。该网络建立了人与服装的全局关系,可以将服装变形为自然试穿状态下的空间分布,更准确地推断服装 3D 形状的先验信息,创建精细的着装 3D 人体模型。在定性评估中,研究人员使用区域感知的纹理生成网络来保持刺绣纹理的真实性和色彩保真度,使 MSEmbGAN 生成的结果具有高度多样化的刺绣纹理。

2024-09-23 19:15:21 724

原创 在线教程丨1 步生成 SOTA 级别图像,Hyper-SD 一键启动教程上线!

一键成为灵魂画手!

2024-09-20 13:35:07 333

原创 全球首个!复旦大学冯建峰团队开发数字孪生脑平台,具备 860 亿神经元规模

包含200亿个神经元和数据约束结构

2024-09-19 17:13:45 653

原创 深度学习对抗海洋赤潮危机!浙大GIS实验室提出ChloroFormer模型,可提前预警海洋藻类爆发

预警海洋赤潮灾难!

2024-09-18 14:11:50 978

原创 MMLU-Pro 基准测试数据集上线,含 12k 个跨学科复杂问题,难度提升,更具挑战性!DeepSeek 数学模型一键部署

Weekly Highlights!

2024-09-14 17:16:07 956

原创 David Baker 任科学顾问,初创公司发布世界最大蛋白质相互作用数据库,已获 8 轮融资

超7.5亿条蛋白质-蛋白质相互作用测量结果

2024-09-14 15:05:36 692

原创 David Baker任科学顾问,初创公司发布世界最大蛋白质相互作用数据库,已获8轮融资...

作者:李姝编辑:李宝珠封面图来源:A-Alpha Bio生物技术初创公司 A-Alpha Bio 发布世界上最大的蛋白质相互作用数据库 AlphaSeq,包含超 7.5 亿条测量结果,并且每个月以 3M-50M 数据点的速度快速扩展,解决数据集匮乏问题。蛋白质-蛋白质相互作用 (Protein-Protein Interactions, PPI) 是细胞生命活动的重要组成部分,在调控和维持细胞的生...

2024-09-14 11:35:47 1018

原创 MMLU-Pro基准测试数据集上线,含 12k 个跨学科复杂问题,难度提升,更具挑战性!DeepSeek 数学模型一键部署...

在大语言模型 (LLM) 蓬勃发展的时代,诸如大规模多任务语言理解 (MMLU) 之类的基准测试,在推动 AI 于不同领域的语言理解与推理能力迈向极限方面,发挥着至关重要的关键作用。然而,伴随模型的持续改进与优化,LLM 在这些基准测试中的表现已经逐步趋于稳定,这使得区分不同模型能力的差异变得越来越困难。为了更好地评估 LLM 的能力,滑铁卢大学、多伦多大学和卡内基梅隆大学的研究人员联合发布了 M...

2024-09-14 11:35:47 904

原创 大人,文生图的时代又变了!SD核心成员自立门户,首个模型FLUX.1硬刚SD 3和Midjourney

内含一键部署教程

2024-09-13 17:08:45 661

原创 数据集汇总|DeepFake 乱象丛生,用魔法打败魔法!高质量数据集助力伪造监测技术发展

11个高质量数据集汇总

2024-09-12 18:06:00 1116

原创 【TVM 教程】在 Relay 中使用 Pipeline Executor

Apache TVM 是一个端到端的深度学习编译框架,适用于 CPU、GPU 和各种机器学习加速芯片。更多 TVM 中文文档可访问 →本教程介绍如何将「Pipeline Executor」与 Relay 配合使用。

2024-09-11 12:40:30 384

原创 HyperAI超神经 x Apache Pulsar | 9 月 22 日,北京 Pulsar Meetup 不见不散!

Pulsar Meetup 北京 2024 活动将于 2024 年 9 月 22 日(周日)由谙流科技和小红书联合举办。诚邀 Pulsar 和各大社区的小伙伴、广大技术爱好者、架构师和企业代表参与。2024 年 9 月 22 日 14:00-18:00。AscentStream 谙流科技、小红书。线下为主,线上同步直播和转播。北京城奥大厦 15A。

2024-09-11 12:36:21 191

原创 基于 2,500 平方公里实景数据,北师大团队提出 StarFusion 模型,实现高空间分辨率图像预测

为了协调 Gaofen-1 和 Sentinel-2 的光谱特性,该研究使用了线性回归模型,将 Sentinel 数据的每个波段作为因变量,相应的 Gaofen-1 数据波段作为自变量,构建了单变量回归模型,然后将构建模型的斜率和截距应用于每个波段 Gaofen-1 图像的每个像素。随着 AI 技术的不断发展,数字化农业正逐渐成为农业发展的新趋势,农业卫星遥感行业逐步从传统的数据依赖模式转向以 AI 为核心的智能驱动模式的关键时期,越来越多的企业正在这一领域展开布局与角逐。

2024-09-11 12:02:56 1173

原创 Apple Intelligence深夜炸场!苹果发布4颗自研芯片,iPhone/iWatch/AirPods大升级

在刚刚结束的秋季新品发布会上,苹果推出 iPhone 16、AirPods 4、Apple Watch Series 10等新品,基于自研芯片,在性能上实现了重大飞跃,同时全面融入 Apple Intelligence,为用户带来前所未有的智能体验。

2024-09-10 06:01:01 953

原创 灵敏度提高56%,港中文/复旦/耶鲁等联袂提出全新蛋白质同源物检测方法

这意味着与基于语言模型的方法相比,同年 12 月,他回国加入香港中文大学计算机科学与工程系,担任助理教授,领导医疗保健人工智能 (AIH) 小组,围绕机器学习、医疗保健和生物信息学的交叉点展开深度研究,带领团队开发新的机器学习方法来解决生物学和医疗保健中的计算问题,特别是结构化学习问题。在蛋白质预测方面,他专注于通过深度学习模型来预测蛋白质的结构和序列,通过训练模型来识别序列中的模式和规律,从而预测蛋白质的序列和折叠方式,改进蛋白质从头测序和结构预测的准确性和效率,进而创造药物设计和疾病治疗的新可能。

2024-09-09 12:57:03 1258

原创 AI含量爆表!Apple最新发布会抢先看,iPhone 16预售量飙升,Apple Watch十周年庆祝期待满满...

作者:十九编辑:李宝珠北京时间 9 月 10 日凌晨 1 点,苹果秋季新品发布会将正式开幕!本次发布会将全面拥抱 AI,并推出新品 iPhone 16、Apple Watch X 等。届时,HyperAI超神经将在视频号同步直播,点击下方「预约」按钮,即可锁定直播间~对于果粉而言,Apple 的每一场活动都不容错过!北京时间 9 月 10 日凌晨 1 点(美国东部时间 9 月 9 日下午 1 点)...

2024-09-09 11:23:28 390

原创 一键部署Phi 3.5 mini+vision!多模态阅读基准数据集MRR-Benchmark上线,含550个问答对

近日,在上海交通大学 AI for Bioengineering 暑期学校活动中,钟博子韬博士以「AlphaFold 3:原理,应用与展望」为题,系统性地梳理了他的学习心得,并广泛整理了来自科研界的众多相关研究成果,向大家分享了他对于 AlphaFold 3 的深刻洞察,本文是演讲的核心内容梳理。复旦大学团队提出了一种新的微型化重构光谱仪设计,结合了传统光谱仪和计算重构光谱仪的优势,通过集成的自参考窄带滤波通道,使得人工智能算法可以在更高维度的参数空间进行光谱和算法参数的同时搜索。小模型又又又卷起来了!

2024-09-06 18:27:11 873

原创 DeepMind新成果被批像广告?AlphaProteo可高效设计靶蛋白结合物,亲和力提高300倍

具体而言,为了设计靶蛋白结合物,研究人员先输入靶蛋白的结构,并选择靶蛋白表位的「热点」残基,推测首选结合位置,生成模型会输出针对靶蛋白的候选结合物结构和序列,过滤器 (Filter) 在实验测试 (Experiment) 前将这些预测的结合剂 (Predicted binders) 筛选为一个较小的集合,在计算机模拟基准测试中,该生成模型的表现优于现有最佳方法。此外,研究人员还探索了在未经实验优化的情况下,与其他设计方法相比,AlphaProteo 设计的结合物对靶蛋白的最佳亲和力。

2024-09-06 17:51:29 963

原创 学术分享|无惧数据匮乏!上海交大博士后周子宜详解蛋白质语言模型的小样本学习方法 FSFP

为了进一步推进 AI4S 的普适化,将学术机构的科研成果进一步降低传播壁垒,分享给更广泛的行业学者、科技爱好者及产业单位,HyperAI超神经策划了「Meet AI4S」视频栏目,邀请深耕 AI for Science 领域的科研人员或相关单位,以视频的形式分享研究成果、方法思路,共同探讨 AI for Science 在科研进展及推进落地过程中面临的机遇和挑战,促进 AI for Science 的科学普及和传播。在每次训练迭代中,把 PLM 对训练样本的预测排列向它们的真实排列修正。

2024-09-06 09:00:55 802

原创 学术分享|无惧数据匮乏!上海交大博士后周子宜详解蛋白质语言模型的小样本学习方法 FSFP...

作者:李姝编辑:李姝,李宝珠「Meet AI4S」系列直播第三期将于 9 月 25 日开播,HyperAI超神经邀请到了上海交通大学博士后周子宜,他将为大家分享蛋白质语言模型的小样本学习方法。预训练蛋白质语言模型 (PLMs) 能够以无监督的方式学习数百万蛋白质中氨基酸序列的分布特征,在揭示蛋白质序列与其功能之间的隐含关系方面显示出了巨大的潜力。在此背景下,上海交通大学自然科学研究院/物理天文学院...

2024-09-05 11:15:20 985

原创 【TVM 教程】在 Relay 中使用外部库

本文介绍如何将 cuDNN 或 cuBLAS 等外部库与 Relay 一起使用。Relay 内部用 TVM 来生成 target-specific 的代码。例如,TVM 使用 CUDA 后端为用户提供的网络中的所有层生成 CUDA 内核。有时也可将各个供应商开发的外部库合并到 Relay 中,TVM 有一种机制可以透明地调用这些库——对于 Relay 用户,只需要设置一个适当的 target 字符串。使用 Relay 的外部库前,用你要用的库构建 TVM。例如,要用 cuDNN,需启用。

2024-09-04 13:42:24 670

原创 覆盖 7 百万问答数据,上海 AI Lab 发布 ChemLLM,专业能力比肩 GPT-4

随着人工智能技术的飞速发展,大语言模型 (LLMs) 凭借其强大的自然语言处理能力,在生命科学、海洋学、材料化学等科学研究中被广泛应用。虽然,LLMs 在分子特性预测、分子生成和实验方案设计等化学相关任务上表现良好,但在处理各种化学下游任务时表现欠佳。首先,大多数化学信息和知识存储在结构化数据库中,直接使用这些数据训练 LLMs 可能会损害模型处理自然语言的能力,使得模型的对话和逻辑推理能力发生退化;其次,在化学信息学中,分子用特殊符号表示,如 SMILES。

2024-09-04 13:08:50 943

原创 在线教程 | 1 分钟生成万字悬疑小说,LongWriter-glm4-9b 突破长文输出瓶颈

随后,该研究团队还利用 LongWriter-6k,基于 GLM-4-9B 进行训练,得到了一个能够生成超过 10,000 字连贯文本的模型 LongWriter-glm4-9b,显著扩展了大型语言模型的输出潜力,在文学创作、新闻报道等实际应用中表现出极大的广泛性。近年来,大语言模型 (LLM) 在理解和生成复杂文本时展现出强大的能力,能够处理高达 100,000 个 tokens 的输入,但在生成超过 2,000 词的连贯输出时,往往会遇到困难。一键克隆即可开启对话。

2024-09-03 16:25:46 374

原创 美国科学院院刊封面文章!中国团队发布可晶圆级生产的人工智能自适应微型光谱仪

该研究提出了一种新型微型化重构光谱仪设计,在整个可见光波段 (400-800 nm) 表现出准确的光谱重构能力,可达到约 2.5 nm 的分辨率、约 0.27 nm 的平均波长偏差、高达 5,806 的分辨力* 该研究为实现具有通用性与高鲁棒性的微型重构光谱仪提供了新的思路,有望借助成熟的 CMOS 集成电路工艺,推动微型光谱探测系统融入 CIS 图像模组。然而,由于光谱形貌的多样性以及信号稀疏性假设,以往报道的重构式微型光谱仪通常需要人工校准算法参数,否则待测光谱的还原结果可能会失真。

2024-09-03 15:53:09 1281

原创 超全拆解AlphaFold 3,上海交大钟博子韬:极致利用数据,以原子精度预测所有生物分子结构,但并不完美

在第三类 Traditional docking 任务中,已知小分子的口袋位置、已知蛋白质结构 (With pocket, Holo structure),即口袋处于暴露状态,Gold 达到 51.2% 的成功率,Vina 表现出 52.3% 的成功率,Glide 则提升至 55%,其他深度学习算法也能达到相对较好的水平,说明成功率受到口袋的影响。此外,其训练集除了包含 PDB 中的数据外,还融入了大量其他数据,比如,选取 AlphaFold 2 预测较准的结构数据作为训练集的扩充。

2024-09-02 15:06:19 1420

原创 10k 星开源数据处理工具一键启动!支持 176 种语言识别;首个高层坠物检测数据集上线,含 18 个场景的近 2k 个视频

该数据集是华中科技大学白翔教授研究团队的王鹏杰等人,提出的高质量 HUST-OBC 数据集,从 3 种不同的来源收集,包括书籍、网站和现有数据集。数据集包含两种类型的甲骨文样本图像,其一是从原始甲骨文拓片的处理扫描中获取甲骨文图像,其二是基于原始甲骨的手写甲骨文图像,进一步细分为基于拓片描摹的图像和基于字形的手写图像。Ref-AVS 数据集是一个用于音频-视觉场景中的对象分割任务的基准,数据集包含 48 个可听对象的视频,具体分类为:20 种乐器,8 种动物,15 种机器,5 种人类。

2024-08-30 14:12:50 2041

原创 29:9!加州AI监管法案获参议院批准,杨立昆等人曾痛批;Neuralink首位患者重获新生!世界最大蛋白质相互作用数据库面世

AI for Science 企业动态速览

2024-08-30 11:43:13 837

原创 【TVM 教程】构建图卷积网络

​这部分重用了DGL 示例的代码。import dglself.g = g# 处理不同 DGL 版本的不同函数else:return h​return acc​在 TVM 上运行 GCN 之前,首先实现 Graph Convolution Layer。参考了解在 DGL 中使用 MXNet 后端实现的 GraphConv 层的更多信息。该层由以下操作定义。注意:我们用两个转置来保持 sparse_dense 算子右侧的邻接矩阵,此方法是临时的,接下来几周内会更新稀疏矩阵转置,使得支持左稀疏算子。

2024-08-29 18:19:35 545

原创 含 14 万张图像!华中科技大学发布高质量甲骨文数据集,助力团队摘冠 ACL 最佳论文

该研究基于 HUST-OBS 数据集和 EVOBC 数据集,利用基于图像的生成模型,训练出了一种针对甲骨文破译优化的条件扩散模型 Oracle Bone Script Decipher (OBSD),该模型利用甲骨文的不可见类别 (unseen categories) 作为条件输入,以生成对应的现代汉字图像,为自然语言处理难以解决的古文字识别任务提供了一种新颖的方法。在已出土的 16 万片甲骨中,发现了超过 4,600 个不同的甲骨文字,但只有约 1,500 个甲骨文字的含义和对应的现代汉字得到了确认。

2024-08-29 17:24:15 1027

原创 上海交大洪亮教授:AI 真要突破工程领域,一定要做到现有人类专家做不到的工程成果

与自然界相比,序列相似度全部低于 65%,最低的为 49%,换言之,研究团队对 700 多个氨基酸序列中的 300 多个进行了改造,其中有 23 个有活性,2/3 比野生活性高,最高的野生型达 8.6 倍。在没有数据的情况下,则通过物理模拟器产生精度略低的大量假数据来做预训练,再用真实珍贵的数据进行微调,完成强化学习。洪教授强调,「假数据指非真实世界的数据,但有一定的可靠度,它可以是 AI 生成的,也可以是物理计算模拟得来进行数据增强,最后真实的湿实验数据最为宝贵,用于模型的最终微调」。

2024-08-28 15:10:15 2939

原创 在线教程 | 青岛小哥焦恩俊魂穿黑神话悟空?MuseV + MuseTalk打造高质量数字人

MuseV 和 MuseTalk 的出现为数字人领域带来了新的突破,使用 MuseV 生成数字人视频后,再使用 MuseTalk 实现唇形和音频的同步,短短几分钟内即可实现完整的数字人制作。使用传统的数字人训练方案生成一个高质量的数字人,常常需要大量的时间和算力资源,同时对训练素材的要求也较高,如果想要达到良好的唇形一致效果,通常需要数小时乃至更久。如果打开 API 地址显示「BadGateway」,说明模型还没有加载完毕,稍等 1-2 分钟后,再打开 API 地址即可。为了让大家更好的理解,

2024-08-27 17:09:15 524

原创 AI for Genomics丨空间转录组数据表征算法 SPACE,基因组学的人工智能应用

在下图中,节点代表细胞,节点的特征则是细胞的基因表达特征。在下图中,左上角图展示了每个细胞在实际组织中的空间位置,其中一个点代表一个细胞,颜色表示细胞类型,这是基于基因表达生成的 UMAP 图。然而,这类方法存在一个问题,即在实际数据分析中,两个不同批次中的细胞类型可能并不完全一致,可能只有几个细胞类型是共同的,剩下的则是批次特异性的。可以看到,虽然这 2 个批次中有相似的细胞类型,但由于批次效应过大,原本属于同一细胞类型的细胞无法聚合在一起,导致技术因素掩盖了生物学因素,无法进行后续的生物学研究。

2024-08-27 14:30:30 941

原创 SAM 2最新应用落地!牛津大学团队发布Medical SAM 2,刷新医学图像分割SOTA榜

因为 3D 医学图像中相邻切片之间存在很强的时间关联,其处理方式也类似于处理视频数据,利用 SAM 2 原本的存储系统来检索先前的切片及其相应预测,以进行连续切片分割,随后通过记忆注意力机制增强输入图像嵌入,并将分割结果添加回存储区,以辅助后续切片的分割。本次论文的发布可谓是对 SAM 及 SAM 2 在医学领域潜力的又一次深挖,为医学图像分割领域提供了一种全新的思路与方法,尤其是在临床应用中展现了极大的潜力和价值,能够大幅缩减医学图像分割的工作量,提升医学图像分割效率和精准度。

2024-08-26 14:50:40 1193

原创 突破万字长文输出瓶颈!清华大学开源 LongWriter-6k 数据集;7 个 CCF A 类顶会即将截稿

近日,山东大学吕海泉、孙蓉、张凯及山西医科大学梅齐,联合螺旋矩阵公司等研究团队,取得了突破性进展,运用机器学习技术,基于 mRNA 的分析,成功开发了一种评估原发性乳腺癌患者样本中癌症干细胞特性的新方法 BCSC signature。本文是对研究论文的详细解读与分享。这个数据集包含了原始 Rider-Waite Tarot Deck 中 78 张牌的图像和相关文本描述,为研究者和艺术家提供了丰富的资源进行塔罗牌艺术和象征意义的探索,可用于训练模型生成塔罗牌风格的图像。本文是对研究论文的详细解读与分享。

2024-08-25 15:29:54 1639

原创 一键下载Meta最大视频分割数据集!含50.9K真实世界视频,覆盖47个国家

2023 年 4 月,Meta 发布 Segment Anything Model (SAM),号称能够「分割一切」,这一颠覆传统计算机视觉 (CV) 任务的创新性成果引起了业内的广泛讨论,并被快速应用于医疗图像分割等垂直领域的研究中。该模型将图像和视频的分割、跟踪功能引入到统一的模型中,只需在视频帧上输入提示(点击、框或掩码),就能精准识别并分割图像或视频中的任何对象,这种独特的零样本学习能力赋予了 SAM 2 极高的通用性,包括 54% 的室内场景视频和 46% 的室外场景视频,平均时长为 14 秒。

2024-08-25 14:51:15 866

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除