r语言中mpg数据_零基础生信入门第一课——R语言数据清洗，超详细讲解，建议收藏！...

最新推荐文章于 2024-01-31 14:53:33 发布

weixin_39680609

最新推荐文章于 2024-01-31 14:53:33 发布

阅读量1.4k

点赞数

文章标签： r语言中mpg数据

本文链接：https://blog.csdn.net/weixin_39680609/article/details/111492816

版权

本文介绍了R语言在生信分析中的数据清洗重要性，强调了数据质量的12个评价维度，并详细讲解了数据规范化处理的8个关键步骤，包括缺失值处理、重复数据检测等。同时，通过plyr包的ddply函数和dplyr包的几个核心函数（如select、filter、mutate等）展示了R语言在数据处理中的应用实例。

摘要由CSDN通过智能技术生成

小伙伴们大家好！今天我要用一篇推文精要概括数据清洗中的最基本最关键的步骤，对于零基础的学员一定会有很大收获！数据清洗是完成一篇生信文章最基本但也是最终要的准备工作，如果不会数据清洗，就要错过很多优质数据集，那文章的质量就会大打折扣~当然这一步也是最费时间费脑子的。话不多说，我们进入正题。

我们熟知的生信分析中，少不了TCGA、GEO、Oncomine等数据库的数据集应用，这些大型综合性数据库的数据大多经过统一的处理，这使得我们应用这些数据集得出的结论更加有说服力。因此，这些数据集相关的研究就不计其数，如果想在数据集上找创新是难中之难，可是不创新又怎样发高分文章呢？数据集很多，但能够出成果的少之又少，好不容易找到一个数据集，原始数据杂乱无章，无从下手，成为了众多生信小白很难跨越的一道鸿沟。

这就体现了R语言数据清洗的重要性。说到R语言，大家可能下意识就是差异分析、跑代码出图等等。然而，简单的分析出图只是R语言的强大功能的冰山一角。R是进行数据运算、清洗、汇总及生成概率统计等数据处理的一个绝佳选择。

数据准备的最常见的应用包括数据的抽取、清洗、转换和集成，常常占据了70%左右的工作量。并且很多数据集即便而在数据准备的过程中,数据质量差又是最常见而且令人头痛的问题。那么数据质量的评价标准又是怎么样的呢？

1.数据质量评价的12个维度

(1)数据规范( Data specification)：对数据标准、数据模型等规定测量标准。

(2)数据完整性准则( Data integrity fundamentals)。

(3)重复( Duplication):对存在于系统内或系统间的特定字段、记录或数据集意外重复的测量标准。

(4)准确性( Accuracy):对数据内容正确性进行测量的标准;

(5)一致性和同步( Consistency and synchronization)：对各种不同的数据信息等价程度的测量。

(6)及时性和可用性( Timeliness and availability)：在预期时段内数据对特定应用的及时程度和可用程度的测量标准。

(7)易用性和可维护性( Ease of use and maintainability)：对数据可被访问，使用程度,以及数据能被更新、维护和管理程度的测量标准。

(8)数据覆盖( Data coverage)：相对于数据总体或全体相关对象数据的可用性和全面性的测量标准。

(9)表达质量( Presentation quality)：如何进行有效信息表达以及如何从用户中收集信息的测量标准。

(10)可理解性,相关性和可信度( Perception, relevance and trust)。

(11)数据衰变( Data decay)：对数据负面变化率的测量标准。

(12)效用性 ( Transactability)：数据产生期望业务交易或结果程度的测量标准。

在评估项目数据质量过程中,需先选取几个合适的数据质量维

最低0.47元/天解锁文章

weixin_39680609

关注

0
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
r语言中mpg数据_零基础生信入门第一课——R语言数据清洗，超详细讲解，建议收藏！...

小伙伴们大家好！今天我要用一篇推文精要概括数据清洗中的最基本最关键的步骤，对于零基础的学员一定会有很大收获！数据清洗是完成一篇生信文章最基本但也是最终要的准备工作，如果不会数据清洗，就要错过很多优质数据集，那文章的质量就会大打折扣~当然这一步也是最费时间费脑子的。话不多说，我们进入正题。我们熟知的生信分析中，少不了TCGA、GEO、Oncomine等数据库的数据集应用，这些大型综合性数据库的数据大...
复制链接

扫一扫