第1关:Pyhanlp 的使用
任务描述
本关任务:根据本关所学有关 Pyhanlp 的知识,完成使用 Pyhanlp 进行关键词提取并通过所有测试用例。
相关知识
为了完成本关任务,你需要掌握:
-
Pyhanlp 的基础知识;
-
学会使用 Pyhanlp。
Pyhanlp 简介
HanLP 是由一系列模型与算法组成的 Java 工具包,目标是普及自然语言处理在生产环境中的应用。HanLP 具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。
不同于一些简陋的分词类库,HanLP 精心优化了内部数据结构和 IO 接口,做到了毫秒级的冷启动、千万字符每秒的处理速度,而内存最低仅需120MB 。无论是移动设备还是大型集群,都能获得良好的体验。不同于市面上的商业工具, HanLP 提供训练模块,可以在用户的语料上训练模型并替换默认模型,以适应不同的领域。项目主页上提供了详细的文档,以及在一些开源语料上训练的模型。
HanLP 希望兼顾学术界的精准与工业界的效率,在两者之间取一个平衡,真正将自然语言处理普及到生产环境中去。
Pyhanlp 的使用
1、分词
pyhanlp 可以自定义多种分词规则和模型,也可以加入自定义词典,经测试,默认的分词方法效果就不错,而且兼备词性标注以及命名实体识别,可以识别人名、地名、机构名等信息。
示例1:分词
texts = HanLP.s