之前做新词发现实验时思路闭塞了。在无监督文本上,通过自由度凝固度和n-gram的组合拳,以字为单位发现新词,再通过先验词表来筛选。
但这是很傻的做法。
更好的做法是,不以字为单位,而是以分词后的词为单位,因为模型切不出来的词肯定会切的稀碎,此时用自由度凝固度n-gram的方法把切碎的粘起来,就是新词了。
之前做新词发现实验时思路闭塞了。在无监督文本上,通过自由度凝固度和n-gram的组合拳,以字为单位发现新词,再通过先验词表来筛选。
但这是很傻的做法。
更好的做法是,不以字为单位,而是以分词后的词为单位,因为模型切不出来的词肯定会切的稀碎,此时用自由度凝固度n-gram的方法把切碎的粘起来,就是新词了。