- 博客(1)
- 收藏
- 关注
原创 【文献笔记】短文本分析
基于稀疏特征的中文微博短文本聚类方法研究 熊祖涛 简介 目前的主要文本表示模型:VSM,N-gram,类短语串,概念模型,图模型,事件模型; VSM:每个文本由特征项和对应权重表示(T1,W1,T2,W2,...,Tn,Wn)(T_1, W_1, T_2, W_2,...,T_n, W_n); 特征降维:文档频率,信息增益,CHI统计量,互信息,期望交叉熵 特征权重的计算方法:布尔-,
2015-04-20 21:02:27 266
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人