kaggle商品数据集_挖掘Kaggle数据集·Instacart订单分析(一)

Instacart是一款在线订购日用商品的app,数据集提供了约3百万条订单记录,这里分两部分做一下简单的分析

第一部分:描述统计

第二部分:关联分析(Market-Basket)肖月:挖掘Kaggle数据集·Instacart订单分析(二)​zhuanlan.zhihu.com

第一部分:描述统计

先预览梳理下数据,做一些基本的描述性统计,画图比较下影响商品销量和回购的几个因素

import numpy as np

import pandas as pd

import matplotlib.pyplot as plt

import seaborn as sns

import os,sys

from itertools import combinations, groupby

from collections import Counter

color = sns.color_palette()

数据集内容:

这是一套描述不同时段顾客购买行为的关系数据集,先把数据集导入进来看下基本信息,进行数据清洗。

from subprocess import check_output

print(check_output(["ls","../market_sells_orders/input"]).decode("utf8"))

df_order_products = pd.read_csv('../market_sells_orders/input/order_products__prior.csv')

print('order_products contains %s orders with columns:'%len(df_order_products))

print(' '+', '.join(df_order_products.columns.values))

df_orders = pd.read_csv('../market_sells_orders/input/orders.csv')

df_orders = df_orders[df_orders['eval_set']=='prior']

df_orders.drop(columns=['eval_set'],inplace=True)

print('orders contains %s orders with columns:'%len(df_orders))

print(' '+', '.join(df_orders.columns.values))

df_aisles = pd.read_csv('../market_sells_orders/input/aisles.csv')

print('aisles contains %s aisles with columns:'%len(df_aisles))

print(' '+', '.join(df_aisles.columns.values))

df_department = pd.read_csv('../market_sells_orders/input/departments.csv')

print('department contains %s departments with columns:'%len(df_department))

print(' '+', '.join(df_department.columns.values))

df_products = pd.read_csv('../market_sells_orders/input/products.csv')

print('products contains %s products with columns:'%len(df_products))

print('

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值