DLPFC.h5ad格式数据简便获取方式+STAGATE论文复现问题

前言

最近在复现生信的论文代码,作为一个门外汉,在找数据这里就遇到了困难。就拿STAGATE这篇的一个数据集DLPFC数据来说,在官网找了好久都没有找到h5ad格式的数据。后面在github逛的时候偶然看到一个仓库也用这个数据来做paper,所以就先拿来用了。

数据获取(DLPFC)

STAGATE用了很多数据集,如DLPFC等,原文给的链接是这样的:
在这里插入图片描述
作者写道,DLPFC数据可以从下面网址获取。但是,即使我挂了梯子还是无法正常打开网页。。。

http:// spatial.libd.org/spatialLIBD

在这里插入图片描述
如果你顺藤摸瓜继续找下去,大概率会找到spatialLIBD的github网页,然后你会发现,仓库里只有t值的数据,没有DLPFC数据。。
如果你继续往下找,可能会找到bioconductor网址里的一大堆说明文档,然后被各种类型的DLPFC数据搞花眼。对于新手而言难度还是有点大了。而且不知道为什么,我每次在R上从bioconductor下载数据,一定会报错。例如运行下面的R代码:

spatialLIBD::fetch_data(type = "spatialDLPFC_Visium")

每次都会出现报错:

snapshotDate(): 2024-04-29
adding rname 'https://www.dropbox.com/s/y2ifv5v8g68papf/spe_filtered_final_with_clusters_and_deconvolution_results.rds?dl=1'
Error in BiocFileCache::bfcrpath(bfc, url) : 
  not all 'rnames' found or unique.
In addition: Warning messages:
1: download failed
  web resource path: ‘https://www.dropbox.com/s/y2ifv5v8g68papf/spe_filtered_final_with_clusters_and_deconvolution_results.rds?dl=1’
  local file path: ‘/Users/lee/Library/Caches/org.R-project.R/R/BiocFileCache/574451c8bae2_spe_filtered_final_with_clusters_and_deconvolution_results.rds%3Fdl%3D1’
  reason: Timeout was reached: [www.dropbox.com] Failed to connect to www.dropbox.com port 443 after 10003 ms: Timeout was reached 
2: bfcadd() failed; resource removed
  rid: BFC18
  fpath: ‘https://www.dropbox.com/s/y2ifv5v8g68papf/spe_filtered_final_with_clusters_and_deconvolution_results.rds?dl=1’
  reason: download failed 
3: In value[[3L]](cond) : 
trying to add rname 'https://www.dropbox.com/s/y2ifv5v8g68papf/spe_filtered_final_with_clusters_and_deconvolution_results.rds?dl=1' produced error:
  bfcadd() failed; see warnings()

如果顺着他给的网址下载,确实是可以下载到相应的Rdata格式数据。
但是!!!!!!
STAGATE的tutorial用的是h5ad格式的数据啊!!(不过spatialLIBD确实提供了函数可以转换两类数据,我没实验,大家可以try一下)
所以我就在想可以在哪里直接找到DLPFC的h5ad格式数据。
然后回忆起之前逛github的时候,有一个叫STAIG的仓库,里面用的就是DLPFC数据。仓库链接挂这里:

https://github.com/y-itao/STAIG

数据可以从谷歌网盘下载:

https://drive.google.com/file/d/1XfBSPM-Dg-Cl3T1PTgMZqXM9jNWuqMQF/view

费尽千辛万苦终于找到数据。如果自己的paper里要使用DLPFC数据,记得正确引用。

paper链接

STAGATE:

https://www.nature.com/articles/s41467-022-29439-6

STAIG:

https://www.biorxiv.org/content/10.1101/2023.12.18.572279v1.full.pdf+html

PS D:\桌面文件放置的路径\test> & C:/Users/wuqiling/.conda/envs/SEDR/python.exe d:/桌面文件放置的路径/test/test.py Traceback (most recent call last): File "d:\桌面文件放置的路径\test\test.py", line 29, in <module> adata = sc.read_visium(data_root / sample_name) ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ File "C:\Users\wuqiling\.conda\envs\SEDR\Lib\site-packages\typing_extensions.py", line 2853, in wrapper return arg(*args, **kwargs) ^^^^^^^^^^^^^^^^^^^^ File "C:\Users\wuqiling\.conda\envs\SEDR\Lib\site-packages\scanpy\readwrite.py", line 451, in read_visium adata = read_10x_h5(path / count_file, genome=genome) ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ File "C:\Users\wuqiling\.conda\envs\SEDR\Lib\site-packages\legacy_api_wrap\__init__.py", line 82, in fn_compatible return fn(*args_all, **kw) ^^^^^^^^^^^^^^^^^^^ File "C:\Users\wuqiling\.conda\envs\SEDR\Lib\site-packages\scanpy\readwrite.py", line 218, in read_10x_h5 with h5py.File(str(filename), "r") as f: ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ File "C:\Users\wuqiling\.conda\envs\SEDR\Lib\site-packages\h5py\_hl\files.py", line 564, in __init__ fid = make_fid(name, mode, userblock_size, fapl, fcpl, swmr=swmr) ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ File "C:\Users\wuqiling\.conda\envs\SEDR\Lib\site-packages\h5py\_hl\files.py", line 238, in make_fid fid = h5f.open(name, flags, fapl=fapl) ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ File "h5py\\_objects.pyx", line 54, in h5py._objects.with_phil.wrapper File "h5py\\_objects.pyx", line 55, in h5py._objects.with_phil.wrapper File "h5py\\h5f.pyx", line 102, in h5py.h5f.open FileNotFoundError: [Errno 2] Unable to synchronously open file (unable to open file: name = 'C:\Users\wuqiling\AppData\Local\R\cache\R\ExperimentHub\data\DLPFC\151673\filtered_feature_bc_matrix.h5', errno = 2, error message = 'No such file or directory', flags = 0, o_flags = 0)
03-14
<think>好的,用户让我解释一下这个命令的输出结果:> print(path) 然后给出的路径。我需要先理解用户的问题是什么。看起来用户可能在R语言环境中运行了打印路径的命令,得到了一个文件路径,想了解这个路径的含义或者相关背景。 首先,这个路径指向一个.Rdata文件,文件名是Human_DLPFC_Visium_processedData_sce_scran_spatialLIBD.Rdata。我需要拆分各部分来分析。路径中的C:\\Users\\wuqiling\\AppData\\Local/R/cache/R/BiocFileCache/说明这是存储在用户wuqiling的本地缓存目录中,属于BiocFileCache的一部分。BiocFileCache是Bioconductor的一个包,用于管理生物信息学数据的缓存,所以用户可能在使用Bioconductor相关的分析流程。 文件名部分有几个关键词:Human_DLPFC_Visium,这应该是指人类背外侧前额叶皮层(DLPFC)的10x Visium空间转录组数据。接下来是processedData,说明这是处理过的数据。文件扩展名.Rdata表示这是R的二进制数据存储格式,通常保存了R的工作空间对象,比如数据框、列表等。 然后看数据结构sce_scran,可能是指SingleCellExperiment对象,结合了scran包的处理结果。scran常用于单细胞RNA测序数据的分析,包括归一化、差异表达等。而spatialLIBD可能指的是处理空间转录组数据的R包,特别是与LIBD(Lieber Institute for Brain Development)相关的数据集或分析方法。 用户可能在使用spatialLIBD包提供的处理好的数据,进行空间转录组分析。这条路径显示数据已经被缓存到本地,用户可以直接通过BiocFileCache访问,避免重复下载。可能需要检查数据是否已正确加载,或者了解数据来源和处理步骤。 接下来要确认用户的需求,他们是否在数据加载过程中遇到问题,或者需要进一步分析指导?可能需要询问用户具体的使用场景,或者解释如何加载这个.Rdata文件,使用load()函数读取其中的对象,以及如何利用这些数据进行后续的空间表达分析。 另外,路径中的反斜杠在R中需要转义,所以显示为双反斜杠,实际路径是C:\Users\...。这也可能让用户对路径结构产生疑问,需要解释这是R在Windows系统中的正常显示方式,不会影响文件读取。 总结,用户可能需要了解该路径对应的数据集背景、如何正确加载数据,或者解决在访问该文件时遇到的问题。需要根据用户的具体情况进一步提供帮助,比如代码示例或数据使用说明。</think>你提供的代码 `print(path)` 输出的是一个文件路径,指向一个 `.Rdata` 格式数据文件。以下是逐步解析: --- ### **1. 路径结构解析** ```r "C:\\Users\\wuqiling\\AppData\\Local/R/cache/R/BiocFileCache/Human_DLPFC_Visium_processedData_sce_scran_spatialLIBD.Rdata" ``` - **路径层级**: - **`C:\\Users\\wuqiling`**: Windows 系统中的用户目录。 - **`AppData\\Local/R/cache/R/BiocFileCache`**: R 语言使用 `BiocFileCache` 包管理的缓存目录,用于存储生物信息学数据(如公共数据集)。 - **文件名**: `Human_DLPFC_Visium_processedData_sce_scran_spatialLIBD.Rdata`。 --- ### **2. 文件内容背景** - **数据类型**:`.Rdata` 是 R 的二进制数据存储格式,可保存变量、数据框、列表等对象。 - **数据来源**: - **Human_DLPFC_Visium**: 人类背外侧前额叶皮层(DLPFC)的 10x Visium 空间转录组数据。 - **processedData**: 表示数据已经过预处理(如标准化、降维、注释等)。 - **sce_scran**: 数据可能存储为 `SingleCellExperiment` 对象(单细胞/空间转录组常用容器),并使用了 `scran` 包进行预处理(如归一化)。 - **spatialLIBD**: 数据来自 R 包 `spatialLIBD`,该包提供人类大脑空间转录组数据(LIBD 项目公开数据)。 --- ### **3. 典型用途** 此文件可能是通过以下方式生成的: 1. **下载数据**: ```r library(spatialLIBD) sce <- fetch_data(type = "DLPFC_Visium_processed") ``` 2. **缓存路径**:`BiocFileCache` 会自动将数据缓存到本地(即你看到的路径),避免重复下载。 --- ### **4. 如何加载数据** 在 R 中加载该文件: ```r load("C:\\Users\\wuqiling\\AppData\\Local/R/cache/R/BiocFileCache/Human_DLPFC_Visium_processedData_sce_scran_spatialLIBD.Rdata") ``` - 加载后,可通过 `sce`(假设对象名为 `sce`)访问数据: ```r library(SingleCellExperiment) head(colData(sce)) # 查看样本注释信息 assayNames(sce) # 查看基因表达矩阵 ``` --- ### **5. 数据应用场景** - **空间转录组分析**:研究基因在组织切片中的空间表达模式。 - **神经科学**:分析人类大脑皮层不同层级的基因表达差异。 - **工具验证**:测试 `scran`、`spatialLIBD` 等包的功能。 --- 如有具体问题(如数据操作、分析流程),可进一步说明需求!
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值