纪念一下,懒癌了两年,到了大三没办法了一定要记笔记了不然人老了光靠脑子顶事啊。
吐槽完毕,开始正事,这次笔记主要是记录看一篇文献的感想。
这篇文献的名字叫《基于多视角特征融合的中文垃圾微博过滤》。
所谓多视角特征融合,是指将词特征、内容规则、结构规则三类特征融合用于分类
分词特征采用nlpir分词工具,只保留代表句子主干的名词、动词、形容词
内容规则采用六条规则:
文本长度
是否存在链接
是否存在数字
词最大重复数目
第一人称代词数目
(这个地方怀疑论文写错了,明明只有五条)
结构规则采用四条规则:
· 转发评论数之比
@用户数
用户粉丝人数
用户关注人数
学习训练工具为 liblinear提供的regularized logistic regression和support vector classfication