对于单条短文本数据的分类（噪声数据过滤）

最新推荐文章于 2023-06-29 21:08:19 发布

赵小越

最新推荐文章于 2023-06-29 21:08:19 发布

阅读量1.7k

点赞数

分类专栏：自然语言处理相关

本文链接：https://blog.csdn.net/angela2016/article/details/80824258

版权

本文探讨了一种新的思路，通过统计词性之间的搭配关系来判断短文本数据的分类，尤其是用于噪声数据过滤。作者指出，有用推文倾向于使用介词，而无用推文更偏向人称代词。分析基于简单的统计方法，未来计划结合TF-IDF进一步改进。

摘要由CSDN通过智能技术生成

似乎还没在语义方向来进行深入处理，这一年一直往结构特征的角度来进行处理，但真真的觉得这还是一个死胡同，没办法啊，所以叫人在江湖身不由己。哈哈。今天新思考了一个点，就是通过统计的角度，来判断词性之间的搭配关系。

首先，我先讲一下思路，我只是进行了很粗略的统计，甚至都是暴力的手段，通过统计二元词性的搭配的问题，很粗略的判断最可能出现的二种词性的搭配问题。

其次，我说明一下，工作的前提约束调剂，词性识别划分的种类是12类。

VERB - verbs (all tenses and modes) 动词
NOUN - nouns (common and proper)  名词
PRON - pronouns   代词（人称代词）
ADJ - adjectives   形容词
ADV - adverbs      副词
ADP - adpositions (prepositions and postpositions)   介词
CONJ - conjunctions         连接词
DET - determiners        限定词
NUM - cardinal numbers      数字
PRT - particles or other function words   小品词或结构词、虚词
X - other: foreign words, typos, abbreviations   缩略词等
. - punctuation     标点

在不考虑我们词性识别的错误的时候，哎，，其实识别的不准。。。假设。。。感觉错误会传递啊。。。哭，然后我们直接统计二元词性的搭配情况，然后得到推文中有用推文的搭配最多的情况和无用推文中搭配最多的情况。