读论文笔记(1)——web文本挖掘技术研究

刚开始接触,从中文的开始,有点大概的了解吧。。。
-------------------------------------------------------------
提到的文本聚类:
大致可以分类为两种类型:
(1)[size=large]以G-HAC等算法为代表的层次凝聚法[/size]
(Mladenic D. feature subset in text-learning. In proc of the 10th European conf. on Machine learning ECML98,1998)
(2)[size=large]以K-MEANS等算法为代表的平面划分法[/size]
(Sagar N. Sublanguage: Linguistic Phenomenon ,Computational Tool. 1986)

文本特征表示中,[size=large]矢量空间模型(VSM)[/size]应用较多。

层次凝聚:简单说就是对文档集中的每个文档进行相似度计算,把相似度最近的两个文档合并,重复步骤,直到只剩下一个簇为止。相当于构造了一颗生成树。
(缺点:运行速度慢,不适合大量文档的集合)

平面划分:确定要生产的聚类数目,生成这么多个数目的种子,然后计算文档与种子之间的距离,按最近原则划分,重复,直到聚类结果稳定。
(缺点,种子选取的好坏对结果有很大的影响)
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值