数据挖掘-话题识别

 

简单话题识别的处理步骤:
1、tf-idf处理词的值(idf为150万篇博文的切词)。
2、切词并进行统计词频,依照tf-idf计算该词在向量中的维度值 。
3、切分标题统计词频,标题的权重是3 (统计时,标题的实际词频*3) 。
4、去掉非名词的词语,去掉一些自定义的无意义名词(像“今,今天”,“时候” 等) 。
5、取前100个词,组装成向量 。
6、对向量归一化处理,目前做的是全部向量转换成单位长度 1 。
7、初始点设置,聚类,目前聚类的簇设置为10 ,质心计算采用的是各维度的和取平均 值,聚类迭代结束条件(变更的点数小于1个或者迭代次数超过200次)。
8、对于每个簇进行统计:找出离簇的中心最近的20个向量(博文);提取分散度(在 该簇的多少篇文章中出现过)最高的20个词。
9、对每个文档簇(博文)的评价指标:文章数、热度(评论、点击量的综合) 。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值