数据分析流程
- 明确问题:明确问题是数据分析中的第一步,必须明确数据分析的真实需求
- 理解数据:数据获取和数据探索
- 数据清洗:一个数据分析项目大部分时间花在数据清洗上
- 数据分析和可视化:对清洗后的数据进行分析,并且通过可视化展示出结果
- 结论和建议:对结果进行解读,得出有价值的结论并且提出相关建议。
数据分析方法
- 常用统计方法,例如计算常用统计量和构建相关指标
- 图表法,通过各种图形结合来展示数据里面信息
- 机器学习算法,对于复杂的分析,会涉及到模型构建
接下来实战!
第一个例子是使用国外的在线零售业务的交易数据,数据下载地址
现在以表格的形式解释一下里面的字段:
字段 | 说明 |
---|---|
InvoiceNo | 订单编号,含有6个整数,退货订单编号开头有字母C |
StockCode | 产品编号,由5个整数构成 |
Description | 产品描述 |
Quantity | 产品数量,有负号表示退货 |
InvoiceDate | 订单日期和时间 |
UnitPrice | 单位 英镑 单位产品的价格 |
CustomerID | 客户编号,由5位数字组成 |
Country | 国家的名称 每个客户所在的国家/地区的名称 |
首先我们明确分析分析的目的
- 购买商品数量前十的国家是哪些
- 交易额前十的国家是哪个
- 哪些月的销量较佳
- 客单价多少(销售额/顾客数)
- 用户消费行为分析
- 购买商品数量前十的国家是哪些
#购买商品数量前10的国家
result1 = data_copy[data_copy['Quantity']>0].groupby('Country').sum()['Quantity'].sort_values(ascending=False).head(10)
#可视化---购买商品数量前10的国家
batdata = go.Bar(x=result1.index.tolist(),y=result1.values