生物信息数据存储、管理规范

文章提出了针对生信分析工作中存储空间不足的问题,制定了四个规范:1)合理使用个人tmp目录并定期清理;2)开发时加入存储优化操作如数据压缩和删除;3)冷数据归档至二级存储;4)系统定期扫描并管理大文件。这些规范旨在提高存储利用率,减少无效数据,并明确了不同存储层级的用途。
摘要由CSDN通过智能技术生成

备注:以下内容来源于生信与NGS⾏业交流群群友,并由群主进行汇总,因博客本身是记录笔记作用,且内容不涉密,分享给大家。又因为无链接,无法设置转载,所以设置的原创。

  由于数据项⽬的持续积累,导致存储空间⽇渐不⾜,且包含⼤量⽆⽤中间数据。为了增加存储空间的利⽤率,减少⽆效或冗余数据的持续积累,请严格执⾏以下4个规范开展⽣信分析⼯作:

规范⼀:分析时合理使⽤tmp⽬录

  1. 个⼈tmp⽬录:/Path/To/user_tmp
  2. 使⽤⽅法: a. 设置分析程序、流程的输出⽬录为个⼈tmp⽬录,将各项⽬不重要的中间⽂件保存到tmp⽬录下。 b. 将最终结果⽂件拷⻉到项⽬正式⽬录下永久保存和备份。
  3. 清理:每⽉初,系统⾃动删除tmp⽬录中2个⽉前⽣成的⽂件。tmp⽬录的数据不会备份,请⼤家各⾃确保数据的完整。

规范⼆:开发时,在软件、流程、API中加⼊存储优化操作

1.数据压缩:部分必须保留的fastq或其他纯⽂本型⼤体积⽂件,需压缩为gz等格式,减⼩⽂件体积。

2.数据删除:对熟悉的软件编写标准分析流程或批处理命令时,在流程或命令末尾加⼊中间⽂件删除命令。

规范三:冷数据归档(待完成本地集群部署后实施

归档:对于已经完结的项⽬(尤其是数据>10G的),请在项⽬结束后的2个⽉内,将项⽬数据转移到⼆级存储的归档⽬录(建议进⾏打包压缩)。readme文件中包含数据二级结构,并含有分析人、需求人、项目内容、简易结论等信息。

规范四:系统定期⾃动扫描磁盘⼤⽂件(待完成本地集群部署后实施

1.扫盘:每⽉初扫描⽤户数据⽬录(tmp除外),记录3个⽉前⽣成的⼤⽂件/⽬录(暂定为体积⼤于1G),将⼤⽂件列表保存在指定位置,并通过邮件发送给对于⽤户。(请严格执⾏规范⼀、⼆,尽量避免在项⽬⽬录下产⽣⼤量数据。)

2.白名单:⼀周内,各⽤户整理需要保留⽂件或⽬录的⽩名单,管理员将⽩名单加⼊扫描系统中,避免再次扫描。

3.删除:各用户在⼀周内完成大体积数据的删除工作。

4.提醒:未及时清理的大文件,系统每日会自动发邮件提醒处理大文件。

注: ⼀级存储:性能好,适合高频数据读写操作。用于存储所有项目的数据。

       ⼆级存储:性能次之,适合低频读取。用于单向同步⼀级存储数据;归档保存项目冷数据。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值