核心:
从应用的角度看中文分词算法,是用于搜索引擎,或者智能识别语义等?应用的不同影响着中文分词的策略选择。
正文:
建立索引或对用户输入的句子分词时,当遇到"XxYyvZz "(每个字母代表一个汉字)这样一个句子时,
如果Xx和Zz是已经收录在词库中的词汇,而Y,y,v,Yy,yv,Yyv均不是词库的词汇,
分词器应该如何处理Yyv这个非词汇组成的孤立串呢?可能的处理情况有:
1、二元分词:Yy/yv
2、单字分词:Y/y/v
3、混合分词:Y/Yy/yv/v
4、不分分词:Yyv
5、通过上下文进行词……