【搭建聊天机器人一搭建python环境和使用NLTK】
一元标注指的是只考虑当前这个词,不考虑上下文。二元标注器指的是考虑它前面的词的标注,用法只需要把上面的UnigramTagger换成BigramTagger。想将在Docker容器中使用pip安装的Python软件包保存到本地,则需要挂载容器中的“/root/.cache/pip”目录到本地的一个目录中。找出最频繁的n个词以及它的词性,然后用这个信息去查找语料库,匹配的就标记上,剩余的词使用默认标注器(回退)。比如经过分析,所有中文语料里的词是名词的概率是13%最大,那么我们的默认标注器就全部标注为名词。
原创
2023-04-06 22:10:00 ·
263 阅读 ·
0 评论