自然语言处理---文本处理的流程
文本处理的流程
Word Segmentation
Word Segmentation tools
Segmentation Method 1:Max Matching(最大匹配)
前向最大匹配(forward-max matching )
max-leg:窗口里的字的数量
后向最大匹配(backward-max matching )
最大匹配的缺点
- 不能细分(有可能是更好),需要新词发现
- 局部最优(贪心算法)
- 效率低(max-leg)
- 歧义(不能考虑语义)
Segmentation Method 2:Incorporate Semantic(考虑语义)
考虑语义的缺点
1.复杂度太高