文本聚类算法介绍

本文介绍了如何对非结构化的文本数据进行聚类分析,主要包括聚类的基本概念、算法用途、常见聚类方法,如划分法、层次法、密度算法等。此外,文章详细阐述了将文本转化为结构化数据的步骤,包括分词、计算权重、构建N维空间向量模型,以及具体的文本聚类算法流程和评估方法。
摘要由CSDN通过智能技术生成

转载请注明出处:http://blog.csdn.net/xiaojimanman/article/details/44977889

http://www.llwjy.com/blogdetail/41b268618a679a6ec9652f3635432057.html

个人博客站已经上线了,网址 www.llwjy.com ~欢迎各位吐槽~
-------------------------------------------------------------------------------------------------


      本博客通过对当前比较成熟的聚类算法分析,介绍如何对非结构的数据(文档)做聚类算法,第一大部分的内容来源百度百科,第二部分是对文本聚类算法思想的介绍。这里因为各种原因就不给出具体的代码实现,如若有兴趣,可以在后面留言一起讨论。


###################################################################################
#####以下内容为聚类介绍,来源百度百科,如果已经了解,可以直接忽略跳到下一部分
###################################################################################


聚类概念
      聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法,同时也是数据挖掘的一个重要算法。聚类(Cluster)分析是由若干模式(Pattern)组成的,通常,模式是一个度量(Measurement)的向量,或者是多维空间中的一个点。聚类分析以相似性为基础,在一个聚类中的模式之间比不在同一聚类中的模式之间具有更多的相似性。

算法用途
      在商业上,聚类可以帮助市场分析人员从消费者数据库中区分出不同的消费群体来,并且概括出每一类消费者的消费模式或者

  • 8
    点赞
  • 45
    收藏
    觉得还不错? 一键收藏
  • 13
    评论
评论 13
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值