- 博客(3)
- 资源 (5)
- 收藏
- 关注
原创 fp growth 实现
近日,准备使用fp growth写个程序,挖掘频繁模式。但是从han jia wei哪里下载的c语言程序效率非常低。根本不能满足大数据量的要求。仔细分析源代码发现,fp growth需要生成很多棵树,每个结点路径都需要保存,还是非常消耗资源的。考虑之后,使用hadoop编写了一个简单的fp growth,总是耗尽java的内存。最后,限制了结点的数量,得到一个计算结果。
2009-03-21 10:39:00 1516 3
原创 相似性计算
public double CosSim(HashMap hashA,HashMap hashB,double sa,double sb) { double sum=0; HashMap tmp=null; if (hashA.size()>hashB.size()) { tmp=hashA; hashA=hashB;
2009-03-18 17:43:00 1442 2
原创 层次聚类与分类规则
层次聚类,通过设计相似性函数(或者聚类函数),可以非常方便的实现无监督的聚类过程。但是相似性阈值太高,得到类目太多,达不到聚类的目的;阈值太低,类目少,但是准确性就会降低。在这个时候,使用一些分类规则,当相似度很高的时候,当满足一些规则,就降低其相似度,这样可以得到合适的类目个数,同时得到比较满意的准确率。
2009-03-05 14:30:00 1547 1
logview里面SourceXML页面,找到 <TaskPlan> </TaskPlan>里面的内容的json格式转换
2023-09-15
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人