数据挖掘知识
ywjun的学习笔记
这个作者很懒,什么都没留下…
展开
-
聚类算法
自百度百科聚类(Cluster)分析是由若干模式(Pattern)组成的,通常,模式是一个度量(Measurement)的向量,或者是多维空间中的一个点。聚类分析以相似性为基础,在一个聚类中的模式之间比不在同一聚类中的模式之间具有更多的相似性。目录概述对聚类的典型要求如下聚类算法分类K-MEANS算法K-MEDOIDS算法转载 2013-03-19 10:54:38 · 2103 阅读 · 0 评论 -
k-medoids 算法思想
自wikipediaFrom Wikipedia, the free encyclopediaThe k-medoids algorithm is a clustering algorithm related to the k-means algorithm and the medoidshift algorithm. Both the k-means转载 2013-03-19 10:56:57 · 5863 阅读 · 0 评论 -
FP-Tree算法的实现
在关联规则挖掘领域最经典的算法法是Apriori,其致命的缺点是需要多次扫描事务数据库。于是人们提出了各种裁剪(prune)数据集的方法以减少I/O开支,韩嘉炜老师的FP-Tree算法就是其中非常高效的一种。支持度和置信度严格地说Apriori和FP-Tree都是寻找频繁项集的算法,频繁项集就是所谓的“支持度”比较高的项集,下面解释一下支持度和置信度的概念。设事务数据库为:转载 2013-03-26 21:10:52 · 15976 阅读 · 5 评论 -
weka导入Eclipse
Eclipse 3.4.x (weka-src.jar) Edit 0 0 1…Table of ContentsRequirementsup to 3.4.13 and 3.5.8Extract the source codeSetup Eclipsenewer than 3.4.13 and 3.5.8Extract the转载 2013-03-26 11:08:24 · 4426 阅读 · 1 评论 -
中文分词软件概览
中文分词软件概览目录(?)[+]中文分词库IKAnalyzerIKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始,IKAnalyzer已经推出 了3个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件。新版本的IKAnalyze转载 2013-05-26 19:06:07 · 2340 阅读 · 0 评论 -
Lucene索引操作常用类
IndexWriterIndexEriter(写索引)是索引过程的核心组件。这个类负责创建新索引或者打开已有索引,以及向索引中添加、删除或更新呗索引文档的信息。可以把IndexWriter看做这样一个对象:提供针对索引文件的写入操作,但不能用于读取或搜索索引。IndexWriter需要开辟一定空间来存储索引,该功能可以由Directory完成。DiretoryDiretory类描述了L原创 2013-05-28 10:12:15 · 1837 阅读 · 0 评论