文本分类 聚类算法简介和详解

文本分类聚类实用的也是分类聚类常用的算法,本文主要关注文本分类和聚类的算法对比和关键词抽取、度量,向量化和距离度量。

文本分类:


文本分类的应用:


文本聚类:


一种无监督的机器学习方法,聚类由于不需要训练过程,不需要预先对手工标注类别,因此具有一定的灵活性和较高的自动化处理能力。已经成为文本信息有效组织、摘要和当行的重要手段。

文本聚类应用:

1. 搜索引擎作为自动文摘等自然语言处理的预处理步骤。

2. 对搜索引擎返回的结果进行聚类,使用户迅速定位到所需要的信息。

3. 对用户感兴趣的文档进行聚类,从而发现用户兴趣并应用于信息过滤和信息主动推荐等服务。

4. 还可以改善文本分类的结果。

5. 文档集合的自动处理。基于聚类的技术对用户提出的查询记录进行聚类,并利用结果更新搜索引擎网站的FAQ。

待续


主题词提取综述:http://blog.csdn.net/uestcfrog/article/details/6913652

LSA算法:http://blog.csdn.net/wangran51/article/details/7408406


  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值