中文存在很多特有的难点,致使分词的效果不如英文为代表的曲折型语言的词法分析的效果。这些困难主要表现在:
(1)词的定义不统一。
(2)汉语的分词还没有形成一个公认的分词标准。这是由第一个问题引起的问题。
(3)词的具体判定问题还没有完全解决。
在计算上也存在较大困难:
(1)缺乏合理的自然语言形式模型;
(2)如何有效地利用和表示分词所需的语法知识和语义知识;
(3)如何对语义进行理解和形式化。
参考:基于自然语言处理和机器学习的文本分类及其应用研究_王懿
中文存在很多特有的难点,致使分词的效果不如英文为代表的曲折型语言的词法分析的效果。这些困难主要表现在:
(1)词的定义不统一。
(2)汉语的分词还没有形成一个公认的分词标准。这是由第一个问题引起的问题。
(3)词的具体判定问题还没有完全解决。
在计算上也存在较大困难:
(1)缺乏合理的自然语言形式模型;
(2)如何有效地利用和表示分词所需的语法知识和语义知识;
(3)如何对语义进行理解和形式化。
参考:基于自然语言处理和机器学习的文本分类及其应用研究_王懿