HanLP是由何晗 @hankcs 开发的一个自然语言处理开源包,使用它可以完成中文分词、词性标注、命名实体识别、句法分析、文本分类等任务。
HanLP本身是用java语言写的,github上虽然给出的是“pip install hanlp”的安装和使用方法,但我这个编程菜鸟实测用不了。
要在Python里使用HanLP,可以安装pyhanlp
一、Pyhanlp安装
命令行安装指令:
pip install pyhanlp
二、java jdk-8安装
但是,仅安装pyhanlp还无法使用pyhanlp,由于pyhanlp是通过python接口调用java包,所以要使用它,你还需要安装java jdk
Oracle官网可以免费下载安装 java jdk-8, 但是需要账号登录。而现在注册oracle账号是一件非常麻烦的事情。
幸好,网上有好心人分享了oracle的账号,可以用来下载java JDK.
有了账号,下载安装没什么特别需要说的。
三、将Java jdk 添加到环境变量
Java jdk安装好之后,还需要将其添加到系统或用户环境变量,这样python才能调用java
到这里为止,pyhanlp终于安装好,可以使用了
四、pyhanlp入门教程
这位博主写了非常详细的pyhanlp使用方法,看完它,你就可以用pyhanlp实现基本的分词和词性标注了。
五、hanlp的相关链接
蝴蝶效应——作者何晗自建的交流论坛