机器学习基础(三十二) —— 使用 Apriori 算法进行关联分析

Apriori 在拉丁语中指“来自以前”。当定义问题时,通常会使用先验知识或者假设,这被称作“一个先验”(a priori)。在贝叶斯统计中,使用先验知识作为条件进行推断也很常见。先验知识可能来自领域知识、先前的一些测量结果。

从大规模数据集中寻找物品间的隐含关系被称作关联分析(association analysis)或者关联规则学习(assocation rule learning)。

关联分析的目标包括:发现频繁项集和发现关联规则。

主要涉及的问题在于,寻找物品间的不同组合(combination)是一项十分耗时的任务,所需的计算代价很高,蛮力搜素方法并不能解决这个问题,所以需要更智能的方法在合理的时间范围内找到频繁项集(frequent item sets)。本文将介绍如何使用 Apriori 算法来解决上述问题。

频繁项集(frequent item sets)是经常出现在一块的物品的集合,
关联规则(assocation rules)暗示两种物品之间可能存在很强的关系。

当寻找频繁项集时,频繁(frequent)的定义是什么?有很多概念可以回答该问题,不过其中最为重要的是支持度和可信度。

一个项集的支持度(support)被定义为数据集中包含该项集的记录所占的比例。支持度是针对项集来说的,因此可以定义一个最小支持度,而只保留满足最小支持度的项集。

可信度或置信度(Confidence)是针对一条诸如{尿布} ⇒ {葡萄酒}关联规则来定义的,这条规则的可信度被定义为支持度({尿布, 葡萄酒})/支持度({尿布})

Apriori 原理

Apriori 原理认为如果某个项集是频繁的,那么它的所有子集也是频繁的。
这个原理直观上并没有什么帮助,但是如果反过来看就有用了,也即是说,如果一个项集是非频繁集,那么它的所有超集也是非频繁的。

使用该原理就可以避免项集数目的指数增长,从而在合理时间内计算出频繁项集。

基于bert实现关系三元组抽取python源码+数据集+项目说明.zip基于bert实现关系三元组抽取python源码+数据集+项目说明.zip基于bert实现关系三元组抽取python源码+数据集+项目说明.zip基于bert实现关系三元组抽取python源码+数据集+项目说明.zip基于bert实现关系三元组抽取python源码+数据集+项目说明.zip 个人大四的毕业设计、课程设计、作业、经导师指导并认可通过的高分设计项目,评审平均分达96.5分。主要针对计算机相关专业的正在做毕设的学生和需要项目实战练习的学习者,也可作为课程设计、期末大作业。 [资源说明] 不懂运行,下载完可以私聊问,可远程教学 该资源内项目源码是个人的毕设或者课设、作业,代码都测试ok,都是运行成功后才上传资源,答辩评审平均分达到96.5分,放心下载使用! 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用! 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习,也适合小白学习进阶,当然也可作为毕设项目、课程设计、作业、项目初期立项演示等。 3、如果基础还行,也可在此代码基础进行修改,以实现其他功能,也可用于毕设、课设、作业等。 下载后请首先打开README.md文件(如有),供学习参考。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

五道口纳什

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值