教你文本聚类（参考http://www.kuqin.com/searchengine/20080511/8323.html）_只有5篇文献如何进行关键词聚类-CSDN博客

2009过去了，为了纪念过去的一年特在此 10 年的第一天起了个大早，参考蛙蛙池塘的教你文本聚类一文http://www.kuqin.com/searchengine/20080511/8323.html 以 Java 代码的形式予以实现。一下为我对此文的理解及源码。

ps：顺祝大家在新的一年里工作顺利，心想事成！

摘要：文本聚类是搜索引擎和语义web的基本技术，本文和大家一起学习一下简单的文本聚类算法，可能不能直接用于实际应用中，但对于想学搜索技术的初学者还是有一定入门作用的。下面简单列举该程序所涉及的内容：

A》》TF/IDF权重

TF-IDF（term frequency–inverse document frequency）

这是一种用于信息检索的一种常用加权技术。它是一种统计方法，用以评估一个字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。

假如一篇文件的总词语数是100个，而词语“母牛”出现了3次，那么“母牛”一词在该文件中的词频就是 0.03 (3/100)。一个计算文件频率 (DF) 的方法是测定有多少份文件出现过“母牛”一词，然后除以文件集里包含的文件总数。所以，如果“母牛”一词在1,000份文件出现过，而文件总数是 10,000,000份的话，其文件频率就是 0.0001 (1000/10,000,000)。最后，TF-IDF分数就可以由计算词频除以文件频率而得到。以上面的例子来说，“母牛”一词在该文件集的TF- IDF分数会是 300 (0.03/0.0001)。这条公式的另一个形式是将文件频率取对数。（具体的计算原理，请参考维基百科tf–idf条目）

B》》用余弦夹角计算文本相似度，用方差计算两个数据间欧式距离

请参考数学之美，以便理解余玄相似度的实际理论应用。

C》》用k-means进行数据聚类等数学和统计知识。关于这些概念可以去google，或者参考文本后的参考链接。

请参考：http://beauty9235.javaeye.com/blog/161675

文本聚类思路：计算两篇文档的相似度，最简单的做法就是用提取文档的TF/IDF权重，然后用余弦定理计算两个多维向量的距离。能计算两个文本间的距离后，用标准的k-means算法就可以实现文本聚类了，具体描述如下：

1》文档预处理:1）文档分词；2）移除停用词；3）单词正规化处理

2》分出的单词就作为索引项（或单词表），它们代表的就是向量空间的项向量

3》计算项权值：这包括要计算1）词频 ; 2)倒排文件频率；3）TF-IDF权值

4》计算文档之间的相似度，一般用余弦相似度(cosine similarity)一同使用于向量空间模型中，用以判断两份文件之间的相似性

测试：首先我们准备以下数据
===================
奥运拳击入场券基本分罄邹市明夺冠对手浮出水面
股民要清楚自己的目的
印花税之股民四季
杭州股民放鞭炮庆祝印花税下调
残疾女青年入围奥运游泳比赛创奥运历史两项第一
介绍一个 ASP.net MVC 系列教程
在 asp.net 中实现观察者模式，或有更好的方法（续）
输大钱的股民给我们启迪
Asp.Net 页面执行流程分析
运动员行李将 “后上先下” 奥运相关人员行李实名制
asp.net 控件开发显示控件内容
奥运票务网上成功订票后应及时到银行代售网点付款
某心理健康站开张后首个咨询者是位新股民
ASP.NET 自定义控件复杂属性声明持久性浅析
==================
很明显以上数据可以分为三类：asp.net，奥运和股民，我们就写程序来实现它，蛙蛙池塘已用 C# 实现了，但是为了加深理解，我将代码以Java的形式实现了一遍，具体参见附件：