- 博客(6)
- 资源 (1)
- 收藏
- 关注
转载 聚类算法总结
原文地址:http://blog.chinaunix.net/uid-10289334-id-3758310.html 聚类算法总结: --------------------------------------------------------- 聚类算法的种类: 基于划分聚类算法(partition clustering) k-means: 是一种典型的划分聚
2015-09-18 09:15:24 400
转载 PLSI( probabilistic latent semantic indexing ) 词分类,文档分类
原文地址:http://www.cnblogs.com/25-to-life/archive/2011/03/05/1971492.html LSA对于许多搞IR和NLP的来说应该不陌生吧,LSA用SVD降维,然后来根据word distribution,来分类文档 而LSA的劣势在于,没有比较好的统计基础,这个和当前流行趋势是不相符的。 所以PLSA,用概率模型来做
2015-09-16 15:14:58 500
转载 Latent Semantic Analysis(LSA/ LSI)算法简介
本文地址为:http://www.cnblogs.com/kemaswill/,作者联系方式为kemaswill@163.com,转载请注明出处。 1. 传统向量空间模型的缺陷 向量空间模型是信息检索中最常用的检索方法,其检索过程是,将文档集D中的所有文档和查询都表示成以单词为特征的向量,特征值为每个单词的TF-IDF 值,然后使用向量空间模型(亦即计算查询q的向量和每个
2015-09-16 15:01:26 508
转载 向量空间模型(VSM)在文档相似度计算上的简单介绍
原文地址:http://blog.csdn.net/felomeng/article/details/4024078 C#实现在: http://blog.csdn.net/Felomeng/archive/2009/03/25/4023990.aspx 向量空间模型(VSM:Vector space model)是最常用的相似度计算模型,在自然语言处理中有着广泛的应
2015-09-16 14:56:56 806
转载 pca 特征抽取
原文地址:http://blog.csdn.net/aalbertini/article/details/6256656 主成分分析 ( Principal Component Analysis , PCA )是一种掌握事物主要矛盾的统计分析方法,它可以从多元事物中解析出主要影响因素,揭示事物的本质,简化复杂的问题。计算主成分的目的是将高维数据投影到较低维空间。给定 n 个变量的 m
2015-09-15 20:27:34 614
转载 三大高级排序
原文地址:http://www.cnblogs.com/lmfeng/p/3755496.html 三大高级排序 1、堆排序 堆排序适合于数据量非常大的场合(百万数据)。 堆排序不需要大量的递归或者多维的暂存数组。 这对于数据量非常巨大的序列是合适的。 比如超过数百万条记录,因为快速排序,归并排序都使用递归来设计算法, 在数据量非常大的时候,可能会发生堆栈溢出错误。 堆排序会将所有
2015-09-14 20:07:16 488
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人