![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据挖掘
aGreySky
这个作者很懒,什么都没留下…
展开
-
Apriori算法得到演员最频繁的电影题材搭配Java实现
今天在编写项目时,需要得到“某演员所擅长的电影题材搭配”,最先想到的就是关联算法,再想到Apriori算法中的支持度指标很符合这一要求。支持度(Support):support({X -> Y}) = 集合X与集合Y中的项在一条记录中同时出现的次数 / 数据记录的个数只要找到满足“最低支持度指标”的电影题材搭配,就满足了项目需求。1.先查看手头的数据每个演员有多部...原创 2019-08-14 13:32:12 · 837 阅读 · 1 评论 -
k-means算法得到最“相似”的演员Java实现
今天在编写项目时,遇到这样一个需求: 选择多个特征,用特征表达演员。采用合理的相似性计算方法,找到同性别演员中主演电影类型、表演风格最相似的两位演员。当某位导演选角,A演员因故不能参加,可以推荐风格相似的演员B。最先想到的就是聚类算法,再想到k-means算法。1.手头的数据k-means算法最重要的是选好特征。在以上数据中,我选取了年龄(birthday)、...原创 2019-08-14 15:31:17 · 634 阅读 · 2 评论 -
FP-Tree题材关联规则Java实现
FP-Tree算法和Apriori算法都属于基于关联规则的分类算法,前者在实现时采用树形结构,避免了产生候选集的过程,使算法效率得到提升。1.题材数据动作 战争 喜剧 爱情 剧情 动作 犯罪 剧情 动作 战争 科幻 灾难 喜剧 爱情 奇幻 动作 战争 喜剧 奇幻 剧情 剧情 2.事务存储对于1中的数据,需要使用List<List<String>...原创 2019-08-28 14:12:14 · 373 阅读 · 0 评论 -
WEKA进行Apriori、FP-Tree、K-means算法测试
1.Apriori算法(1)数据动作 战争喜剧 爱情剧情 动作 犯罪剧情 动作 战争科幻 灾难喜剧 爱情 奇幻动作 战争喜剧 奇幻剧情剧情Weka能识别的文件类型是.arff文件,我们需要将已有数据转为.arff格式数据。@relation movie@attribute 动作 {False, True}@attribute 战争 {Fal...原创 2019-08-28 15:21:17 · 2333 阅读 · 4 评论 -
基于朴素贝叶斯的垃圾邮件分类器Java实现和讲解
朴素贝叶斯算法最典型的应用就是垃圾邮件的识别,在数据量非常大的情况下,识别的正确率可以达到接近100%,同时实现起来思路并不复杂。本文介绍的就是基于朴素贝叶斯算法的垃圾邮件识别的实现。如果之前对贝叶斯算法不了解的同学可以先阅读这篇文章,非常好懂!https://blog.csdn.net/fisherming/article/details/79509025这篇文章最后得到一个非常通俗的公式:...原创 2019-09-12 17:26:20 · 5604 阅读 · 4 评论 -
垃圾邮件分类器的评价指标及ROC曲线Java实现
上一篇博客讲到基于贝叶斯算法的垃圾邮件分类Java实现,最后得到每一封测试邮件为垃圾邮件的概率probability数组,最后的分类步骤和指标评价任务留到了这篇博客进行讲解。因为联合概率法和贝叶斯法最后的正确率相仿,本文只对联合概率法的结果进行评价。首先,我们需要明确我们所需要的评价指标:混淆矩阵、各种指标率、ROC曲线。对评价指标不了解的小伙伴先阅读这篇博客,非常好懂!https://blo...原创 2019-09-14 16:06:29 · 1737 阅读 · 0 评论