学术研究
liumingrong
USTC NLPR-CASIA
展开
-
Single-Linkage Clustering: The Algorithm
The algorithm is an agglomerative scheme that erases rows and columns in the proximity matrix as old clusters are merged into new ones.The N*N proximity matrix is D = [d(i,j)]. The clusterings are a转载 2007-06-25 15:06:00 · 3400 阅读 · 0 评论 -
文献阅读
最近开始阅读(web)数据挖掘方面文献,准备实现其中部分内容。原创 2007-04-16 08:56:00 · 627 阅读 · 0 评论 -
基于Manifold Rank的同主题多文档自动摘要
这两天基本实现了该算法。 在线提供对单篇文档的基于主题自动摘要:http://159.226.8.167/mr/原创 2007-04-22 10:56:00 · 871 阅读 · 0 评论 -
[数据挖掘]聚类算法一览
[数据挖掘]聚类算法一览 聚类分析是数据挖掘中的一个很活跃的研究领域,并提出了许多聚类算法。这些算法可以被分为划分方法、层次方法、基于密度方法、基于网格方法和基于模型方法。1 、划分方法(PAM:PArtitioning method) 首先创建k个划分,k为要创建的划分个数;然后利用一个循环定位技术通过将对象从一个划分移到另一个划分来帮助改善划分质量。典型的划分方法包括:k-mean转载 2007-05-09 16:08:00 · 1187 阅读 · 0 评论 -
新闻网页排序初步
新闻网页排序与普通网页排序有几个显著的区别。首先是时效性,新闻网页一般都有发布时间,这是新闻的重要特征,所以排序时必须考虑到,另外就是新闻网页的链接较少,类似PageRank的链接分析在这里很难用上。 对新闻网页排序可能考虑的几个因素:时间(Time);发布新闻的网站(Source);该新闻的流行程度(Popularity),这主要可以通过聚类分法找到同类新闻的数量.当然肯定还有其他的因素可以原创 2007-05-28 19:49:00 · 1214 阅读 · 0 评论 -
信息过滤
信息过滤(information filtering)目前研究领域主要分为两种方法,一种叫做基于内容的过滤(content based filtering or cognitive filtering),一种叫做协作过滤(colaborative filtering).前者主要还是基于内容的向量空间表示和过滤规则来过滤信息,利用传统的统计学习方法,比如分类和聚类或者决策树等机器学习方法。后者往往需原创 2007-05-31 11:15:00 · 1178 阅读 · 0 评论