似乎还没在语义方向来进行深入处理,这一年一直往结构特征的角度来进行处理,但真真的觉得这还是一个死胡同,没办法啊,所以叫人在江湖身不由己。哈哈。今天新思考了一个点,就是通过统计的角度,来判断词性之间的搭配关系。
首先,我先讲一下思路,我只是进行了很粗略的统计,甚至都是暴力的手段,通过统计二元词性的搭配的问题,很粗略的判断最可能出现的二种词性的搭配问题。
其次,我说明一下,工作的前提约束调剂,词性识别划分的种类是12类。
VERB - verbs (all tenses and modes) 动词
NOUN - nouns (common and proper) 名词
PRON - pronouns 代词(人称代词)
ADJ - adjectives 形容词
ADV - adverbs 副词
ADP - adpositions (prepositions and postpositions) 介词
CONJ - conjunctions 连接词
DET - determiners 限定词
NUM - cardinal numbers 数字
PRT - particles or other function words 小品词或结构词、虚词
X - other: foreign words, typos, abbreviations 缩略词等
. - punctuation 标点
在不考虑我们词性识别的错误的时候,哎,,其实识别的不准。。。假设。。。感觉错误会传递啊。。。哭,然后我们直接统计二元词性的搭配情况,然后得到推文中有用推文的搭配最多的情况和无用推文中搭配最多的情况。
<