需要对推文来进行很好的过滤,在这里我主要考虑的是推文外部特征的过滤,需要知道到底有哪些外部特征,没有涉及到语义的那些特征。
判断的依据:
第一:推文单词数很少的时候,认为表述不清事件信息,故认为很大程度是非事件。
第二:一般而言,大写字母很多的情况下,我们认为不太规范,也将这个作为一个特征
第三:命名实体的个数,但因为命名实体识别的不准确性,所以在统计的数据之前来加一个权值。
第四:认为引用词太多,说明更多的是某人的观点,而不是更多的是发生了什么事实,所以也认为这个是一个重要的特征。
第五:如果@数目很多的情况,说明其也相当不规范,表达的语义可能表述不清,所以也作为一个重要的特征
第六:#数目很多的情况下,没说多少有用的信息,所以,也认为是一个重要的特征
第七:如果非英文单词出现很多时,尤其在一些表情符号出现的时候,我们也认为这是非事件的一个重要的特征
第八:表述个人观点的词的出现时,说明某种程度上描述的是个人观点
表征个人观点的动词的原型:say, think, tell, believe, hold, consider, deem等词
第九:表征个人强烈态度的词出现的时候也认为这个推文的情感很强烈,我们认为不具有参考的价值,是非事件。
表强烈的震惊的词 oh, god, shit,hell, fuck
表个人推测的词 will, would, may, might, maybe, perhaps, probably, could,plan ,plans, must, should
表感谢的态度词 thank, thanks, gratitude, grateful,
表祈求的词 help, please, pray, praying, condolence, condolences
表强列的词 too, stupid, awful, sad, only
表时间节点的词 ago, decades, decade
第十:人称代词的数目很多的情况下,我们也认为是非事件的可能性更大
第十一:疑问表征,也就是出现在句首的单词,以及问号出现的次数,疑问的表征出现的情况下,我们认为是非事件的一个重要的特征。