对于单条短文本数据的分类(噪声数据过滤)

本文探讨了一种新的思路,通过统计词性之间的搭配关系来判断短文本数据的分类,尤其是用于噪声数据过滤。作者指出,有用推文倾向于使用介词,而无用推文更偏向人称代词。分析基于简单的统计方法,未来计划结合TF-IDF进一步改进。
摘要由CSDN通过智能技术生成

         似乎还没在语义方向来进行深入处理,这一年一直往结构特征的角度来进行处理,但真真的觉得这还是一个死胡同,没办法啊,所以叫人在江湖身不由己。哈哈。今天新思考了一个点,就是通过统计的角度,来判断词性之间的搭配关系。

          首先,我先讲一下思路,我只是进行了很粗略的统计,甚至都是暴力的手段,通过统计二元词性的搭配的问题,很粗略的判断最可能出现的二种词性的搭配问题。

        其次,我说明一下,工作的前提约束调剂,词性识别划分的种类是12类。

VERB - verbs (all tenses and modes) 动词
NOUN - nouns (common and proper)  名词
PRON - pronouns   代词(人称代词)
ADJ - adjectives   形容词
ADV - adverbs      副词
ADP - adpositions (prepositions and postpositions)   介词
CONJ - conjunctions         连接词
DET - determiners        限定词
NUM - cardinal numbers      数字
PRT - particles or other function words   小品词或结构词、虚词
X - other: foreign words, typos, abbreviations   缩略词等
. - punctuation     标点

         在不考虑我们词性识别的错误的时候,哎,,其实识别的不准。。。假设。。。感觉错误会传递啊。。。哭,然后我们直接统计二元词性的搭配情况,然后得到推文中有用推文的搭配最多的情况和无用推文中搭配最多的情况。

<
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值