我的训练语料、测试语料都来自 中文分词评测语料
最大匹配算法,首先要根据训练语料训练出字典,然后再根据训练出来的字典实现中文分词。
首先读取训练语料,由于训练语料的句子都用双空格(" ")隔开,所以读取数据,遇到空格就将两空格之间的内容识别成一个词,并存进set里。
set是C++ STL的一个模版类,set具有不数据不重复的性质,所以同一个词语不会被存进set两次,特别好用。</
我的训练语料、测试语料都来自 中文分词评测语料
最大匹配算法,首先要根据训练语料训练出字典,然后再根据训练出来的字典实现中文分词。
首先读取训练语料,由于训练语料的句子都用双空格(" ")隔开,所以读取数据,遇到空格就将两空格之间的内容识别成一个词,并存进set里。
set是C++ STL的一个模版类,set具有不数据不重复的性质,所以同一个词语不会被存进set两次,特别好用。</