[Python]FPG（FP-growth）算法核心实现

最新推荐文章于 2020-08-27 15:31:59 发布

textboy

最新推荐文章于 2020-08-27 15:31:59 发布

阅读量2.8k

点赞数

分类专栏： DataAnalysis 文章标签： python FP-growth FPG 关联算法推荐算法

本文链接：https://blog.csdn.net/textboy/article/details/50547473

版权

DataAnalysis 专栏收录该内容

35 篇文章 12 订阅

订阅专栏

FPG是FP-growth算法的简称，推荐算法=》关联算法中最有名的算法之一，是Apriori算法的性能优化版。

参考了一些示例，自行再实现，具体算法如下。

步骤归纳为：
1、第一次遍历获取HeaderTable，包括去重、计频繁数、依据最小支持度去项、重排序(频繁数倒序)；
2、第二次遍历更新原列表，包括依据headerTable去除小于最小支持度的项、重排序
3、建FP Tree，包括创建新节点、相似元素项节点合并

调用入口 (test04.py)：

#coding:utf-8
import test03
oneDimList = []
def loadSimpDat():
    simpDat = [['r', 'z', 'h', 'j', 'p'],
               ['z', 'y', 'x', 'w', 'v', 'u', 't', 's'],
               ['z'],
               ['r', 'x', 'n', 'o', 's'],
               ['y', 'r', 'x', 'z', 'q', 't', 'p'],
               ['y', 'z', 'x', 'e', 'q', 's', 't', 'm']]
    return simpDat

# 数据准备
simpDat = loadSimpDat()
for list in simpDat:
    oneDimList += list
# 建header table
headerTable = test03.HeaderTable().create(oneDimList, 3)
# 建FP tree
buildTree = test03.BuildTree()
updDat = buildTree.refactor(simpDat, headerTable)
fpTree = buildTree.update(updDat)
# 打印结果
for fpTreeItem in fpTree:
    print 'parent:' + fpTreeItem.parent + ', name:' + fpTreeItem.name + \
          ', num:' + str(fpTreeItem.numOccur)

核心实现 (test03.py)：

#coding:utf-8
class HeaderTable:
    def __init__(self):
        pass

    def create(self, dat, minsup):
        headerTable = {}
        # 去重
        setDat = set(dat)
        # 计频繁数
        for key in setDat:
            headerTable[key] = dat.count(key)
        # 依据最小支持度去项
        for k,v in headerTable.items():
            if v < minsup:
                del(headerTable[k])
        # 重排序
        headerTable = sorted(headerTable.items(),key=lambda i:i[1],reverse=True)
        print headerTable
        return headerTable

class FPTreeItem:
    def __init__(self, key, name, numOccur, parent):
        self.key = key              # key
        self.name = name            # 项名
        self.numOccur = numOccur    # 频繁值
        self.parent = parent        # 父节点

class BuildTree:

    # inDat: (list) [[],[]]
    def refactor(self, inDat, headerTable):
        lineCounter = 0
        datLine =[]
        dat = []

        # 依据headerTable去除小于最小支持度的项、重排序
        for list in inDat:
            lineCounter += 1
            for i in headerTable:
                if i[0] in list:
                    datLine.append(i[0])
            dat.append(datLine)
            datLine = []
        return dat

    # updDat: (list) [[],[]]
    def update(self, updDat):
        fpTree = []

        for list in updDat:
            parent = ''
            keyLink = ''
            for item in list:
                parent = keyLink
                keyLink += item

                for fpTreeItem in fpTree:
                    if keyLink == fpTreeItem.key:
                        # 相似元素项节点合并
                        fpTreeItem.numOccur += 1
                        break
                # 没有这个元素项时创建一个新节点
                else:
                    fpTreeItem = FPTreeItem(keyLink, item, 1, parent)
                    fpTree.append(fpTreeItem)
        return fpTree

参考：

http://www.cnblogs.com/zhangchaoyang/articles/2198946.html
http://www.cnblogs.com/qwertWZ/p/4510857.html

textboy

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
[Python]FPG（FP-growth）算法核心实现

FPG是FP-growth算法的简称，推荐算法=》关联算法中最有名的算法之一，是Apriori算法的性能优化版。参考了一些示例，自行再实现，具体算法如下。步骤归纳为：1、第一次遍历获取HeaderTable，包括去重、计频繁数、依据最小支持度去项、重排序(频繁数倒序)；2、第二次遍历更新原列表，包括依据headerTable去除小于最小支持度的项、重排序3、建FP
复制链接

扫一扫