hanlp 训练模型_HanLP2.0

汤连杰

大快搜索是一个相对年轻的公司,组建时间不算很长,我们公司主要是聚焦大数据底层软件、大数据开发框架、人工智能这几个方向。在大数据底层软件方面,有DKH大数据分析处理平台,在人工智能方面的主要产品就是HanLP。HanLP从2015年开始进行研发,目前,我们已经开源了全部源代码。

由于HanLP1.x的开发主要以传统方式进行,我们可以直接在工程里面进行调用。从HanLP2.0开始,我们走入深度学习技术路线,把以前的算法重新用C++进行打造。由于深度学习、神经网络时代的到来,HanLP2.0全面拥抱深度学习,采用Python作为主要开发语言,以前的对外接口是Java,现在可以提供多种语言支持。以前的C语言开发模块,通过这个接口传送出来,或者用Python来进行调用,其他开发语言也一样可以调用。因为都是开源的,大家可以尽情地使用,都是不收费的。

HanLP2.0里面利用C++实现了高速算法,用SWIG实现Python语言的接口。双数组字典树/AC自动机词典匹配是HanLP1.x的优良传统,在HanLP2.0会继续保持,大家还可以继续使用这个。

在多语言这个方面,我们用Python重新写了外部框架。以前我们要把一段话进行分词处理,也要建立一个工程,HanLP2.0支持直接向服务端发送一个请求,可以直接返回分词结果,这个就非常方便了。我说多语言指的是自然语言,比如英文、日文、韩文和西班牙文,在底层框架的设计上,不在一个编码体系里,我们底层的架构跟语言无关,你可以使用任何语言,只要提供语料库就可以处理语言,不论是什么语言。语料库决定了HanLP最后所支持的语言,如果是西班牙语,将西班牙语语料库放在里面训练,建立训练模型,最后调用模型就可以了。所以说,HanLP2.0充分体现了这么一个人工智能和神经网络机器学习编程的思路。HanLP预先存放的模型有繁体中文、简体中文、英文、日文,如果有更好的语料库也可以进行训练。

与国际接軌,HanLP2.0的代码库、文档还有OA都采用英文,文档采用Sphinx工具,大家使用起来更加方便。HanLP2.0对底层框架是有依赖的,主要是依靠TensorFlow。Keras就是TensorFlow2.0提供的官方高级API,应用特别方便,比其他框架快得多。

有人问HanLP1.0很好,HanLP2.0怎么用呢?很多模型通过神经网络训练,为了提高速度,我们公司本身提供一个GPU集群,可以免费使用,但如果为了提高效率,可以自己另行搭建GPU集群,可以把你的语料库放在GPU上进行训练。HanLP的各个组件都是基于模型的,任何组件都可以实现模型的加载、保存、解码、训练、评测等。组件和组件接口都是以文档为标准的,传入的是文档,输出的也是文档,各个组件很容易构成流水线,各种不同功能的模块把组件搭建起来以后,迅速领取自己的任务。这样说起来,可能还是有点抽象,但是真正使用的时候,HanLP是一个非常好用的工具,加载速度非常快,从加载到启动,基本上只需要200毫秒。(根据演讲内容整理,未经本人审核)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值