学了两天python,想实践下,正好最近在学习数据挖掘,先用python实现下
注:由于后面加了注释,由于编码问题,可能即使是注释,有的环境也不支持汉字的编码,运行报错的话可以将汉字删除后再运行
环境 ubuntu 13.4 python 2
import itertools
import copy
'''
定义全局变量k,即支持度计数k,此k也可以在运行程序之前输入,简单改动即可
'''
k = 2
'''
存储频繁项集的列表
'''
frequenceItem = []
'''
从txt文件dataset.txt里获取事务集
'''
def getDataSet(args):
f = open(args,'r')
source = f.readlines()
f.close()
dataset = []
for line in source:
temp1 = line.strip('\r\n')
temp2 = temp1.split(',')
dataset.append(temp2)
return dataset
'''
初步扫描事务集,从事务集里获取候选1项集
方法的基本思路是:
定义一个集合tmp,将事务集的第一项作为tmp的初始集合
然后扫描事务集,将不在tmp里的数据项加入tmp中
'''
def find_item( dataset ):
len