- 博客(3)
- 收藏
- 关注
fp growth 实现
近日,准备使用fp growth写个程序,挖掘频繁模式。但是从han jia wei哪里下载的c语言程序效率非常低。根本不能满足大数据量的要求。 仔细分析源代码发现,fp growth需要生成很多棵树,每个结点路径都需要保存,还是非常消耗资源的。 考虑之后,使用hadoop编写了一个简单的fp growth,总是耗尽java的内存。最后,限制了结点的数量,得到一个计算结果。...
2009-03-21 10:39:00 81
相似性计算
public double CosSim(HashMap<String, Double> hashA,HashMap<String, Double> hashB,double sa,double sb) { double sum=0; HashMap<String, Double> tmp=null; if (has...
2009-03-18 17:43:00 103
层次聚类与分类规则
层次聚类,通过设计相似性函数(或者聚类函数),可以非常方便的实现无监督的聚类过程。但是相似性阈值太高,得到类目太多,达不到聚类的目的;阈值太低,类目少,但是准确性就会降低。在这个时候,使用一些分类规则,当相似度很高的时候,当满足一些规则,就降低其相似度,这样可以得到合适的类目个数,同时得到比较满意的准确率。...
2009-03-05 14:30:00 269
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人