加载模型
HanLP的工作流程是先加载模型,模型的标示符存储在hanlp.pretrained
这个包中,按照NLP任务归类。
import hanlp
hanlp.pretrained.tok.ALL # 语种见名称最后一个字段或相应语料库
调用hanlp.load
进行加载,模型会自动下载到本地缓存。自然语言处理分为许多任务,分词只是最初级的一个。
tok = hanlp.load(hanlp.pretrained.tok.COARSE_ELECTRA_SMALL_ZH)
tok
进阶知识
你可以通过加载不同的模型实现各种颗粒度、各种分词标准、各种领域的中文分词。其中,coarse和fine模型训练自9970
万字的大型综合语料库,覆盖新闻、社交媒体、金融、法律等多个领域,是已知范围内全世界最大的中文分词语料库。语料库规模决定实际效果,面向生产环境的语料库应当在千万字量级。欢迎用户在自己的语料上训练或微调模型以适应新领域。语料库标注标准决定最终的分词标准,模型的准确率决定多大程度上再现该分词标准。更多背景知识请参考《自然语言处理入门》。