数据分析-概念

本文介绍了数据分析中的数据取样和预处理关键步骤。数据取样需确保资料完整、数据准确,常见抽样方式包括随机、等距、分层和分类抽样。数据预处理涉及降维、缺失值处理、数据清洗和标准化,以提升数据质量。常用的数据挖掘建模工具有R、Python、SAS Enterprise Miner、IBM SPSS Modeler、SQL Server、MATLAB和RapidMiner等。
摘要由CSDN通过智能技术生成

这里写图片描述

一、 数据取样


1.数据抽取

在明确了需要进行数据挖掘的目标后,接下来就需要从业务系统中抽取出一个与挖掘目标相关的样本数据子集。抽取数据的标准,一是相关性,二是可靠性,三是有效性,而不是动用全部企业数据。通过数据样本的精选,不仅能减少数据处理量,节省系统资源,而且使我们想要寻找的规律性更加突显出来。

进行数据取样,一定要严把质量关。在任何时候都不能忽视数据的质量,即使是从一个数据仓库中进行数据取样,也不要忘记检查其质量如何。因为数据挖掘是要探索企业运作的内在规律性,原始数据有误,就很难从中探索规律性。若真的从中还探索出来了什么“规律性”,再依此去指导工作,则很可能会造成误导。若从正在运行的系统中进行数据取样,更要注意数据的完整性和有效性。

2.衡量取样数据质量的标准包括:

1) 资料完整无缺,各类指标项齐全。
2) 数据准确无误,反映的都是正常(而不是异常)状态下的水平。
对获取的数据,可再从中作抽样操作。抽样的方式是多种多样的,常见的有:

随机抽样:在采用随机

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值