h5ad文件前后端可视化探索

仿生人会梦到敲代码么

已于 2022-09-01 11:06:36 修改

阅读量1.9k

点赞数 1

分类专栏：项目积累文章标签： python 前端 echarts plotly

于 2022-08-30 13:52:12 首次发布

本文链接：https://blog.csdn.net/weixin_42854769/article/details/126571888

版权

项目积累专栏收录该内容

16 篇文章 0 订阅

订阅专栏

一、需求

将h5ad文件中的数据转化为可在浏览器中展示的散点图、热力图、盒须图、小提琴图，后端使用python进行开发。

二、难点

h5ad大文件读取速度慢
百万级别散点前端展示性能差，甚至会导致崩溃

三、探索

h5ad读取速度慢

首先是读取h5ad文件使用的包，分别尝试了h5py、scanpy、anndata三个较为常用的包，scanpy和anndata读取一个3G左右大小的h5ad文件需要大概30s，h5py则1s不到的时间即可完成读取，主要的差异在于h5py没有构造稀疏矩阵（用来展示热力图），如果自行使用csc_matrix()方法进行处理的话，所需要的时间则和另外两个包几乎没有区别，因此推测主要的瓶颈在于对稀疏矩阵的处理上。

那么下一步就可以考虑不读取原始h5ad文件的方式，而是将所需要的数据提前预处理好存储成json文件，每次仅读取json文件即可。

存储为json

由此而来新的问题则是如何进行json的存储和读取，第一次尝试是将所需要的数据存储在一个json文件中，但是存储后的json文件大小是原始h5ad文件大小的130%左右（仅保留所需要的相关数据），并且由于json格式的读取速度不如h5ad文件格式快，直接读取全数据的方法不可行。

那么就选择了拆分成多个存储不同内容的json及jsonl文件，散点图需要的坐标和分类数据分别存储为两个json文件，其他图表所需要的稀疏矩阵则单独存储为一个jsonl文件，最后的结果是一个1GB大小h5ad文件的散点图需要的坐标及分类数据仅需要4MB即可，散点图的问题解决。而存储稀疏矩阵（为进一步优化文件大小该稀疏矩阵排除了0值，记录的是有值的索引值及表达量）的jsonl仍是原h5ad文件大小的120%，继续考虑稀疏矩阵jsonl文件的读取优化。

/**
 * 稀疏矩阵jsonl参考格式如下
 * 存储内容是每个差异基因的表达量索引及值
 **/
{"WNT16":{"index":[50564,51310,53022,69374],"value":[72.7,429.18,343.88,279.17]}}
{"ABCC8":{"index":[37710,40979,67813],"value":[273.6,476.64,195.66]}}

不全量读取文件

一个1GB的h5ad文件将其中的稀疏矩阵存储为jsonl后大小约为1.25GB，如果读取的话依然无法满足性能优化的需求，因此考虑是否可以使用seek()方法仅读取部分文件，因为每次用来展示为热力图的只是部分差异基因的数据，不需要全量数据进行展示。

而部分读取，那就需要针对每个差异基因的数据的指针位置进行存储，通过tell()方法找到指针起始位置，再使用len()计算出终止位置，最终单独存储为一个json。

/**
 * 指针位置示例
 **/
{"TSPAN6": [0, 6697], "DPM1": [6699, 187677], "SCYL3": [187679, 224870], "C1orf112": [224872, 231096], "FGR": [231098, 238901], "CFH": [238903, 245321]}