r语言中mpg数据_零基础生信入门第一课——R语言数据清洗,超详细讲解,建议收藏!...

本文介绍了R语言在生信分析中的数据清洗重要性,强调了数据质量的12个评价维度,并详细讲解了数据规范化处理的8个关键步骤,包括缺失值处理、重复数据检测等。同时,通过plyr包的ddply函数和dplyr包的几个核心函数(如select、filter、mutate等)展示了R语言在数据处理中的应用实例。
摘要由CSDN通过智能技术生成

小伙伴们大家好!今天我要用一篇推文精要概括数据清洗中的最基本最关键的步骤,对于零基础的学员一定会有很大收获!数据清洗是完成一篇生信文章最基本但也是最终要的准备工作,如果不会数据清洗,就要错过很多优质数据集,那文章的质量就会大打折扣~当然这一步也是最费时间费脑子的。话不多说,我们进入正题。

我们熟知的生信分析中,少不了TCGA、GEO、Oncomine等数据库的数据集应用,这些大型综合性数据库的数据大多经过统一的处理,这使得我们应用这些数据集得出的结论更加有说服力。因此,这些数据集相关的研究就不计其数,如果想在数据集上找创新是难中之难,可是不创新又怎样发高分文章呢?数据集很多,但能够出成果的少之又少,好不容易找到一个数据集,原始数据杂乱无章,无从下手,成为了众多生信小白很难跨越的一道鸿沟。

这就体现了R语言数据清洗的重要性。说到R语言,大家可能下意识就是差异分析、跑代码出图等等。然而,简单的分析出图只是R语言的强大功能的冰山一角。R是进行数据运算、清洗、汇总及生成概率统计等数据处理的一个绝佳选择。

数据准备的最常见的应用包括数据的抽取、清洗、转换和集成,常常占据了70%左右的工作量。并且很多数据集即便而在数据准备的过程中,数据质量差又是最常见而且令人头痛的问题。那么数据质量的评价标准又是怎么样的呢?

1.数据质量评价的12个维度

(1)数据规范( Data specification):对数据标准、数据模型等规定测量标准。

(2)数据完整性准则( Data integrity fundamentals)。

(3)重复( Duplication):对存在于系统内或系统间的特定字段、记录或数据集意外重复的测量标准。

(4)准确性( Accuracy):对数据内容正确性进行测量的标准;

(5)一致性和同步( Consistency and synchronization):对各种不同的数据信息等价程度的测量。

(6)及时性和可用性( Timeliness and availability):在预期时段内数据对特定应用的及时程度和可用程度的测量标准。

(7)易用性和可维护性( Ease of use and maintainability):对数据可被访问,使用程度,以及数据能被更新、维护和管理程度的测量标准。

(8)数据覆盖( Data coverage):相对于数据总体或全体相关对象数据的可用性和全面性的测量标准。

(9)表达质量( Presentation quality):如何进行有效信息表达以及如何从用户中收集信息的测量标准。

(10)可理解性,相关性和可信度( Perception, relevance and trust)。

(11)数据衰变( Data decay):对数据负面变化率的测量标准。

(12)效用性 ( Transactability):数据产生期望业务交易或结果程度的测量标准。

在评估项目数据质量过程中,需先选取几个合适的数据质量维

  • 0
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值