4.8 新词发现
词典中没有的,但是结合紧密的字或词有可能组成一个新词。 比如:"水立方"如果不在词典中,可能会切分成两个词"水"和"立方"。如果在一篇文档中"水"和"立方"结合紧密,则"水立方"可能是一个新词。可以用信息熵来度量两个词的结合紧密程度。信息熵的一般公式是:
4.8 新词发现
词典中没有的,但是结合紧密的字或词有可能组成一个新词。 比如:"水立方"如果不在词典中,可能会切分成两个词"水"和"立方"。如果在一篇文档中"水"和"立方"结合紧密,则"水立方"可能是一个新词。可以用信息熵来度量两个词的结合紧密程度。信息熵的一般公式是: