关联规则apriori算法的python实现

最新推荐文章于 2024-07-30 17:00:31 发布

Instant_

最新推荐文章于 2024-07-30 17:00:31 发布

阅读量1.2w

点赞数 6

分类专栏：数据挖掘算法脚本文章标签：算法 python 数据挖掘

本文链接：https://blog.csdn.net/sshhiixx/article/details/46519603

版权

本文介绍了使用Python编程语言实现数据挖掘中经典的Apriori算法，通过实例展示了如何在Ubuntu 13.4环境下进行操作。内容包括算法原理、代码实现及事务集合的应用。

摘要由CSDN通过智能技术生成

学了两天python，想实践下，正好最近在学习数据挖掘，先用python实现下

注：由于后面加了注释，由于编码问题，可能即使是注释，有的环境也不支持汉字的编码，运行报错的话可以将汉字删除后再运行

环境 ubuntu 13.4 python 2

import itertools
import copy

'''
定义全局变量k，即支持度计数k,此k也可以在运行程序之前输入，简单改动即可
'''
k = 2

'''
存储频繁项集的列表
'''
frequenceItem = []


'''
从txt文件dataset.txt里获取事务集
'''
def getDataSet(args):
    f = open(args,'r')
    source = f.readlines()
    f.close()
    dataset = []
    for line in source:
        temp1 = line.strip('\r\n')
        temp2 = temp1.split(',')
        dataset.append(temp2)
    return dataset


'''
初步扫描事务集，从事务集里获取候选1项集
方法的基本思路是：
定义一个集合tmp，将事务集的第一项作为tmp的初始集合
然后扫描事务集，将不在tmp里的数据项加入tmp中
'''
def find_item( dataset ):
    len