算法
Towan
天下之至柔,驰骋天下之至坚。
展开
-
关联算法总结
1.FP-growth 基本原理:Frequency Pattern-growth频繁模式增长算法,也是决策树算法,在产生候选项目集的时候采用模式增长的方法递归挖掘全部频繁模式,并且只需扫描事务数据库两次。它采用分而治之的思想:经过一片扫描后,将提供频繁项集的事务数据库压缩成一颗频繁模式树,但仍保留项集的关联信息。然后,将这种压缩后的事务数据库分成一组条件数据库,每个条件数据库关联一个频繁项集,...2014-05-03 16:37:47 · 663 阅读 · 0 评论 -
网页去重算法
网页去重发生在网页下载后、索引建立前,典型的网页去重算法有SHINGLING、I-MATCH算法、Random Projection、SimHash算法以及SPOTSING算法2014-05-03 17:20:20 · 215 阅读 · 0 评论 -
网页分类算法
网页自动分类是通过对某一特定的网页样本进行训练获得该类别网页的形式化描述,在此基础上训练分类器,进而对未知类别的网页进行类别判断的技术。 常用的分类器有SVM、朴素贝叶斯、KNN、Rocchio、中心分类算法CBC(Center Based Classification)...2014-05-03 17:26:06 · 631 阅读 · 0 评论