python中结巴分词的准确性比较高,网上有详细的教程,包括自字义字典的使用方法。
最近在做实验室的一个小项目,其中有很多实体名不规则,需要使用自定义的字典,按照网上某些教程的方法,建立了自定义字典,该方法说只有词性是可选的,我就设置了词频,发现不管是提高还是降低数值,自己希望的自定义词仍然没有出现。后面上Git看了作者发的东西,说词频也是可选的,然后就试着把词频也去掉了,自已定义的词就出现了。
真是众里寻他千百度,蓦然回首,那人就站在我身后
python中结巴分词的准确性比较高,网上有详细的教程,包括自字义字典的使用方法。
最近在做实验室的一个小项目,其中有很多实体名不规则,需要使用自定义的字典,按照网上某些教程的方法,建立了自定义字典,该方法说只有词性是可选的,我就设置了词频,发现不管是提高还是降低数值,自己希望的自定义词仍然没有出现。后面上Git看了作者发的东西,说词频也是可选的,然后就试着把词频也去掉了,自已定义的词就出现了。
真是众里寻他千百度,蓦然回首,那人就站在我身后