《红楼梦》后四十回真假辨析——数据挖掘之关联规则挖掘

通过关联规则挖掘,分析《红楼梦》1-40回、40-80回及80-120回的用词差异,发现1-40回与80-120回间差异显著,表明后四十回的用语习惯发生了较大变化。
摘要由CSDN通过智能技术生成

前言
很多人都听说过《红楼梦》的后四十回并非曹雪芹所著。本文就是用关联规则挖掘的方法,验证红楼梦后四十回与前八十回之间的用词差异。

基本概念定义
关联:自然界中某种事物发生时,其他事物也会发生,则称这种联系为关联。反映事件之间依赖或者关联的知识称之为关联型知识。(又称为依赖关系)
关联的类型:简单关联、时序关联、因果关联
关联规则挖掘:在交易数据,关系数据、或其他信息载体中,查找存在于项目集合或者对象集合之间的频繁模式、关联、相关性或者因果结构。

数据:即任务相关的数据,是事务的集合。
事务:是项的集合,且每个事务均具有事务标识符TID。
项集:Items,包含k个项的项集称为k-项集。如二项集{X1,X2}
支持度计数:Support,一个项集出现的次数,就是整个数据集中包含该项集的事务数。
置信度:Confidence,是包含A的事务中同时又包含B的百分比,条件概率。
频繁项集:若一个项集的支持度大于等于某个阈值,则称此项集为频繁项集。
强关联规则:同时满足用户定义最小支持度的阈值、和最小置信度阈值的关联规则。
兴趣度:描述了项集A对项集B的影响力大小&#x

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值