数据挖掘过程中的问题:FP-Tree构建过程中的问题

FPTree 建立的一个小问题:相同输入输出不同

前两天,在自己实现FP-growth算法后,用测试数据集做测试时,发现了一个奇怪的现象:相同的输入,输出的结果却不一致。一开始以为是读取数据集的过程中出现了问题,然而同样的数据集用Apriori算法实现却没有出现这样的情况。于是开始检查FP-growth的问题。
仔细思考这样的问题为什么会出现?第一个反应是是否是因为排序的结果不稳定导致,因为在所有实现的过程中,只有排序的结果可能不稳定!
后来果然发现了,就是排序的问题:
最初的实现中,在建立树的一个分支时,需要对事务进行排序,排序用的键值只有一个item对应的频率,如果出现两个频率相同的item,那么排序的结果必然不稳定。经过修改,将排序的键值改为:(item频率, item 名字),由于item之间不重名,这样排序的结果绝对不会出现多种。
经过后续测试,果然之前的错误没有再发生。这里可能需要研究python的sorted函数的具替实现方式到底是怎样才能彻底解开这个问题出现的谜,以后找时间一定要好好研究python的sorted函数。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值