数据的预处理
数据预处理是我们在拿到数据之后,真正使用之前的非常重要的一个环节。我们在对数据进行处理时往往非常注重方法论,对于数据本身问题的不重视导致最后的处理结果准确性较差,甚至根本无法使用。
数据审核
数据审核说白了就是检查数据是否存在问题,主要是检查完整性和准确性。检查完整性,即检查需数据的各项是否齐全存,准确性则是查看数据是否存在异常值,对于异常值我们要多注意一下,关注一下异常值产生生的原因是采集方式导致的还是数据本身的原因。
在进行检查之前我们可以关注一下数据的来源,数据采集的方式有助于我们检查数据。我之前在国内一家超大型的国企工作,近两年在做数字化,虽然对于数据存储这一块还算是比较重视保存了大量的数据,但是由于实际产生数据的是业务人员并非我们计算机技术人员,所以业务员工有时应付式的、完成任务式的操作,随意填写数据,一些数据不填写都是时常发生的。这样便导致数据不准确。
数据筛选
在数据审核之后,我脉门对数据进行一些查漏补缺,纠正。但是由于我们收集数据大都是秉着尽可能多的采集的思想,所以难免会出现一些错误的、不符合要求的数据,这个时候我们就要把这类数据给过滤掉。而对于一些符合特定条件的数据我们要进行提取。
数据排序
数据排序就是对数据以某种规则进行排序,以便我们方便发现数据中的特征,趋势等,有的时候对数据进行排序本身就是一种业务需求。对于分类型数据我们常见的排序方法有按英文字母升降排序,按汉语拼音升降排序,按笔画升降排序等,对于数值型则只有升序降序排序两种。
数据整理与展示
数据经过预处