文本分类聚类实用的也是分类聚类常用的算法,本文主要关注文本分类和聚类的算法对比和关键词抽取、度量,向量化和距离度量。
文本分类:
文本分类的应用:
文本聚类:
一种无监督的机器学习方法,聚类由于不需要训练过程,不需要预先对手工标注类别,因此具有一定的灵活性和较高的自动化处理能力。已经成为文本信息有效组织、摘要和当行的重要手段。
文本聚类应用:
1. 搜索引擎作为自动文摘等自然语言处理的预处理步骤。
2. 对搜索引擎返回的结果进行聚类,使用户迅速定位到所需要的信息。
3. 对用户感兴趣的文档进行聚类,从而发现用户兴趣并应用于信息过滤和信息主动推荐等服务。
4. 还可以改善文本分类的结果。
5. 文档集合的自动处理。基于聚类的技术对用户提出的查询记录进行聚类,并利用结果更新搜索引擎网站的FAQ。
待续
主题词提取综述:http://blog.csdn.net/uestcfrog/article/details/6913652
LSA算法:http://blog.csdn.net/wangran51/article/details/7408406