生物信息数据存储、管理规范

备注:以下内容来源于生信与NGS⾏业交流群群友,并由群主进行汇总,因博客本身是记录笔记作用,且内容不涉密,分享给大家。又因为无链接,无法设置转载,所以设置的原创。

  由于数据项⽬的持续积累,导致存储空间⽇渐不⾜,且包含⼤量⽆⽤中间数据。为了增加存储空间的利⽤率,减少⽆效或冗余数据的持续积累,请严格执⾏以下4个规范开展⽣信分析⼯作:

规范⼀:分析时合理使⽤tmp⽬录

  1. 个⼈tmp⽬录:/Path/To/user_tmp
  2. 使⽤⽅法: a. 设置分析程序、流程的输出⽬录为个⼈tmp⽬录,将各项⽬不重要的中间⽂件保存到tmp⽬录下。 b. 将最终结果⽂件拷⻉到项⽬正式⽬录下永久保存和备份。
  3. 清理:每⽉初,系统⾃动删除tmp⽬录中2个⽉前⽣成的⽂件。tmp⽬录的数据不会备份,请⼤家各⾃确保数据的完整。

规范⼆:开发时,在软件、流程、API中加⼊存储优化操作

1.数据压缩:部分必须保留的fastq或其他纯⽂本型⼤体积⽂件,需压缩为gz等格式,减⼩⽂件体积。

2.数据删除:对熟悉的软件编写标准分析流程或批处理命令时,在流程或命令末尾加⼊中间⽂件删除命令。

规范三:冷数据归档(待完成本地集群部署后实施

归档:对于已经完结的项⽬(尤其是数据>10G的),请在项⽬结束后的2个⽉内,将项⽬数据转移到⼆级存储的归档⽬录(建议进⾏打包压缩)。readme文件中包含数据二级结构,并含有分析人、需求人、项目内容、简易结论等信息。

规范四:系统定期⾃动扫描磁盘⼤⽂件(待完成本地集群部署后实施

1.扫盘:每⽉初扫描⽤户数据⽬录(tmp除外),记录3个⽉前⽣成的⼤⽂件/⽬录(暂定为体积⼤于1G),将⼤⽂件列表保存在指定位置,并通过邮件发送给对于⽤户。(请严格执⾏规范⼀、⼆,尽量避免在项⽬⽬录下产⽣⼤量数据。)

2.白名单:⼀周内,各⽤户整理需要保留⽂件或⽬录的⽩名单,管理员将⽩名单加⼊扫描系统中,避免再次扫描。

3.删除:各用户在⼀周内完成大体积数据的删除工作。

4.提醒:未及时清理的大文件,系统每日会自动发邮件提醒处理大文件。

注: ⼀级存储:性能好,适合高频数据读写操作。用于存储所有项目的数据。

       ⼆级存储:性能次之,适合低频读取。用于单向同步⼀级存储数据;归档保存项目冷数据。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
对于海洋大数据应用平台数据中心的建设,以下是一些关键点: 1. 数据来源:海洋大数据来源丰富,包括海洋遥感、海洋生物、海洋化学、海洋地质、海洋环境等方面。数据来源要确定清楚,以便更好地进行数据管理和利用。 2. 数据采集:海洋大数据采集需要涉及多个领域,包括传感器、监测设备、人工采集等。数据采集需要考虑数据的完整性、准确性和实时性。 3. 数据预处理:在数据进入数据仓库之前,需要进行数据预处理,包括统一坐标系、数据清洗、数据格式变换等。这些步骤可以确保数据的质量和一致性,方便后续的数据管理和利用。 4. 数据存储:海洋大数据存储需要考虑数据的规模、性能和安全性。数据仓库需要支持多种数据类型和格式,具备高性能和高可扩展性,并且需要有完善的数据备份和恢复机制。 5. 数据管理数据管理是海洋大数据应用平台的重要组成部分,包括数据分类、数据标准化、数据共享和数据安全等方面。数据管理需要有完善的规范和流程,以确保数据的有效管理和利用。 6. 数据分析:海洋大数据分析需要使用多种数据分析工具和算法,包括数据挖掘、机器学习、人工智能等方面。数据分析需要根据应用场景和目标,对数据进行深入挖掘和分析,以提取有价值的信息和知识。 7. 数据应用:海洋大数据应用需要结合具体的应用场景和业务需求,开发相应的应用程序和服务,包括海洋环境监测、海洋资源开发、海洋保护等方面。数据应用需要具备高性能、高可靠性和高安全性。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值