Exploiting Internal and External Semantics for the Clustering of Short Texts Using World Knowledge
虽然当时没有出现微博,但研究者已经注意到处理短评语句(产品评论信息、 问答信息、图片描述信息等)时的问题,由于短评数据中分解抽取后特征词较少,所以传统的bag-of-word方法效果不好,因为文章提出三层结构式的处理短评语句特征词稀疏的方法;
将特征分为内部特征和外部特征,内部特征是通过理解评论短语语义的方式抽取特征,外部特征是借助外部资源(wikipedia、wordnet)提取相关特征,最后将内外部特征融合;