Python中用于处理大量数据的包主要是numpy和pandas,常用于提取以及分析大量数据的有用指标。而Python只是工具,最重要的是分析者对数据的分析思维及对业务指标的理解,利用有用工具对具体数据做出分析,提取有用信息,并将数据可视化,给出分析报告。
一般数据分析的步骤主要有五步。分别是提出问题、理解数据、数据清洗、构建模型、数据可视化。下面就按这些步骤并利用pandas对某药店的销售数据进行分析。
一、提出问题
拿到一份数据,首先是对数据的理解,对各个指标的含义的理解,然后就是提出问题,确定分析目标。再者是确定分析工具,一般数据量比较大的需要用到Python,下面是用Python读取了Excel数据的结果。
由此可以知道,数据共有6578条,7个指标。指标主要反映了客户在某时间购买了某种金额为多少的某种商品,站在商家的角度,希望了解药物的销售情况,可以得出以下几个分析目标:1)月均消费次数;2)月均消费金额;3)客单价;4)月消费总额。
二、数据清洗
数据清洗是指对原数据进行整理,提取有用的数据,一般有以下六个步骤:选择子集、列名重命名、缺失数据处理、数据类型转换、数据排序、异常值处理。选择子集
选择子集是指提取出对分析数据指标有用的指标,这里所包含的指标都对分析有用,不需要进行选择。列名重命名
对一些指标进行重命名,方便理解和分析。案例中"购药时间"改为"销售时间"更方便理解。缺失值处理
缺失值处理是对数据中出现空值的行进行删除ÿ