python 关联分析算法的包_Python 极简关联分析(购物篮分析)

关联分析,也称购物篮分析,本文目的:

基于订单表,用最少的python代码完成数据整合及关联分析

文中所用数据下载地址:

使用Python Anaconda集成数据分析环境,下载mlxtend机器学习包。包挺好,文档不太完善。

闲话少说,开始吧:

Step 1. 载入包

import pandas as pd

from mlxtend.frequent_patterns import apriori

from mlxtend.frequent_patterns import association_rules

Step 2. 读取原始数据包

df = pd.read_excel('./Online Retail.xlsx')

df.head()

image.png

Step 3. 数据预处理——选定样本

df['Description'] = df['Description'].str.strip()

df.dropna(axis=0, subset=['InvoiceNo'], inplace=True)

df['InvoiceNo'] = df['InvoiceNo'].astype('str')

df = df[~df['InvoiceNo'].str.contains('C')]

描述Description字段去除首尾空格,删除发票ID"InvoiceNo"为空的数据记录,将发票ID"InvoiceNo"字段转为字符型,删除发票ID"InvoiceNo"不包含“C”的记录

Step 4. 数据预处理——处理为购物篮数据集

方法一:使用pivot_table函数

import numpy as np

basket = df[df['Country'] =="France"].pivot_table(columns = "Description",index="InvoiceNo",

values="Quantity",aggfunc=np.sum).fillna(0)

basket.head(20)

方法二:groupby后unstack

basket2 = (df[df['Country'] =="Germany"]

.groupby(['InvoiceNo', 'Description'])['Quantity']

.sum().unstack().reset_index().fillna(0)

.set_index('InvoiceNo'))

basket选择法国地区数据,basket2为德国地区数据,不要忘记fillna(0),将空值转为0,算法包需要。

用到的都是pandas数据整合基础功能,参考网址:

http://pandas.pydata.org/pandas-docs/stable/10min.html

整合后数据差不多长这样:

image.png

列名为商品名称,每一行为一个订单。

Step 5. 将购物数量转为0/1变量

0:此订单未购买包含列名

1:此订单购买了列名商品

def encode_units(x):

if x <= 0:

return 0

if x >= 1:

return 1

basket_sets = basket.applymap(encode_units)

basket_sets.drop('POSTAGE', inplace=True, axis=1)

使用dataframe的applymap函数,将encode_units在basket中的每个单元格执行并返回

删除购物篮中的邮费项(POSTAGE)

Step 6. 使用算法包进行关联规则运算

frequent_itemsets = apriori(basket_sets2, min_support=0.05, use_colnames=True)

rules = association_rules(frequent_itemsets, metric="lift", min_threshold=1)

frequent_itemsets 为频繁项集:

image.png

Support列为支持度,即 项集发生频率/总订单量

rules为最终关联规则结果表:

image.png

antecedants前项集,consequents后项集,support支持度,confidence置信度,lift提升度。

Final Step. 结果检视

rules[ (rules['lift'] >= 6) &

(rules['confidence'] >= 0.8) ]\

.sort_values("lift",ascending = False)

选取置信度(confidence)大于0.8且提升度(lift)大于5的规则,按lift降序排序

image.png

结论参考理论知识,自行解读 :)

欢迎交流,谢谢。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Apriori算法是一种常见的关联规则挖掘算法,用于发现数据集中的频繁项集。在市场购物篮分析中,Apriori算法可以用于识别顾客购物篮中的频繁组合商品,从而可以针对不同的组合商品设计针对性的促销活动。 在Python中实现Apriori算法需要使用第三方库,例如mlxtend。下面是一个简单的示例代码: ```python from mlxtend.frequent_patterns import apriori from mlxtend.frequent_patterns import association_rules import pandas as pd # 读取数据集 data = pd.read_excel('shopping_basket.xlsx') # 将数据集转换为关联规则库 basket = pd.get_dummies(data.set_index('Transaction')['Item']) # 使用Apriori算法识别频繁项集 frequent_itemsets = apriori(basket, min_support=0.01, use_colnames=True) # 根据频繁项集生成关联规则 rules = association_rules(frequent_itemsets, metric="lift", min_threshold=1) # 输出前10条规则 print(rules.head(10)) ``` 在上面的代码中,我们首先读取了一个名为shopping_basket.xlsx的数据集,该数据集含了顾客购买商品的记录。然后,我们将数据集转换为关联规则库,以便使用Apriori算法识别频繁项集。在这里,我们使用了min_support参数指定了项集的最小支持度,use_colnames参数指定了项集中使用的列名。 接下来,我们使用association_rules函数生成关联规则,其中metric参数指定了用于评估规则的指标,min_threshold参数指定了规则的最小阈值。 最后,我们输出了前10条规则。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值