ik 和hanlp_一种基于HanLP的电力设备中文分词方法与流程

本发明涉及电力设备数据处理技术领域,尤其涉及一种基于HanLP的电力设备中文分词方法。

背景技术:

目前,中文分词技术的应用在国内外是一项十分活跃的研究领域,目前,市场上已经出现很多通用的中文分词方法和技术,例如ICTCLAS、HTTPCWS、IK、盘古分词、结巴分词等,但在特定的专业领域,传统的通用分词技术往往存在容易产生歧义、分词结果不精确等问题。

截止目前,国家电网公司已建立了大量的数据管理系统,业务数据量非常庞大,但由于各业务部门及各业务系统对数据信息定义规则的不同,导致现实中同一来源数据在不同的业务系统中出现诸如名称不一致的情况,造成一数多源的问题,为各业务系统间数据统一性带来了一定的困难。

因此,结合电力数据的特点,建立电力领域独有的分词词典库,并利用基于HanLP的多维度中文分词方法和技术,将各个业务系统间数据匹配分析,可以显著提高工作效率及数据的使用效率。

技术实现要素:

本发明的目的是提供一种基于HanLP的电力设备中文分词方法,创新性地结合面向电力领域的分词词典库,融合HMM分词、NLP分词、索引分词、最短路径分词等方法,能够更加快速、准确地对电力特定领域的中文文本进行分词,提高了分词结果的准确性与可靠性。

本发明采用的技术方案为:

一种基于HanLP的电力设备中文分词方法,包括以下步骤:

A、 输入电力设备中文名称文本字符串;

B、 依次使用多种分词方法并得到若干种分词结果;

C、 使用电力领域专用分词词典与权重比重,对分词结果进行遴选;

D、 计算分词结果的综合评定分值,采纳一个最大分值的分词结果。

进一步地,所述步骤A中电力设备中文名称文本字符串由多个前缀或词元所构成,可以在字符串的任意位置附加电力设备电压等级描述字符串。

进一步地,所述步骤B中采用多种分词方法将步骤A输入的电力设备中文名称文本字符串进行切分并得到若干种分词结果;多种分词方法包括HMM分词、NLP分词、索引分词和最短路径分词。

进一步地,所述分词结果构建成为结果列表模型,列表中的每一个对象存储一种切分结果对象,切分结果对象中存储采用的切分方法代码、分词结果最终分值、切分结果词元。

进一步地,所述切分结果词元中包括该词元的文本描述、词性、是否命中词典和命中权重分值。

进一步地,所述步骤C中对分词结果进行遴选的具体过程为:对分词结果进行迭代,识别其中的切分结果对象,并依次对存储的切分结果词元进行迭代,在电力领域专用分词词典中进行扫描,判断该切分结果中存储的词元文本字符串是否完全命中分词词典中的特定条目;若是,则在切分结果词元中记录已命中词典,记录该词典条目的权重分值;若否,则在切分结果词元中记录未命中词典,且将权重分值调整为0。

进一步地,所述步骤D中计算分词结果的综合评定分值过程为:在所有切分结果词元迭代完成后,累加计算所有切分结果词元的权重分值,将计算结果记录在切分结果对象的分词结果最终分值中;然后扫描拥有最大分词结果最终分值的分词结果,将其采纳为最终分词结果。

本发明的有益效果为:

利用电力领域分词词典和多维度分词方法的整合,对电力设备名称的中文分词结果进行改进,创新性地结合面向电力领域的分词词典库,融合HMM分词、NLP分词、索引分词、最短路径分词等方法,能够更加快速、准确地对电力特定领域的中文文本进行分词,提高了分词结果的准确性与可靠性。

附图说明

图1为本发明的流程图;

图2为图1中步骤B的流程图;

图3为图1中步骤C的流程图;

图4为图1中步骤D的流程图。

具体实施方式

本发明包括以下步骤:

A、输入电力设备中文名称文本字符串;

B、依次使用多种分词方法并得到若干种分词结果;

C、使用电力领域专用分词词典与权重比重,对分词结果进行遴选;

D、计算分词结果的综合评定分值,采纳一个最大分值的分词结果。

为了更好地理解本发明,下面结合附图对本发明的技术方案做进一步说明。

如图1所示,本发明利用电力领域分词词典和多维度分词方法的整合,对电力设备名称的中文分词结果进行改进,具体步骤为:

A、输入电力设备中文名称文本字符串;

B、依次使用多种分词方法并得到若干种分词结果;

C、使用电力领域专用分词词典与权重比重,对分词结果进行遴选;

D、计算分词结果的综合评定分值,采纳一个最大分值的分词结果。

进一步地,步骤A所述电力设备中文名称文本字符串由多个前缀或词元所构成,可以在字符串的任意位置附加电力设备电压等级描述字符串。

步骤B所述多种分词方法为:依次使用HMM分词、NLP分词、索引分词、最短路径分词等中文分词方法,将所述电力设备中文名称文本字符串进行切分并得到若干种分词结果。

所述分词结果需要构建为结果列表模型,列表中的每一个对象存储一种切分结果对象,切分结果对象中存储采用的切分方法代码、分词结果最终分值、切分结果词元。

所述切分结果词元中包含该词元的文本描述、词性、是否命中词典、命中权重分值。

步骤C所述的遴选过程为:对分词结果进行迭代,识别其中的切分结果对象,并依次对存储的切分结果词元进行迭代,在电力领域专用分词词典中进行扫描,判断该切分结果中存储的词元文本字符串是否完全命中分词词典中的特定条目:

若是,则在切分结果词元中记录已命中词典,记录该词典条目的权重分值;

若否,则在切分结果词元中记录未命中词典,且将权重分值调整为0。

步骤D所述的计算综合评定分值为:在所有切分结果词元迭代完成后,累加计算所有切分结果词元的权重分值,将计算结果记录在切分结果对象的分词结果最终分值中。扫描拥有最大分词结果最终分值的分词结果,将其采纳为最终分词结果。

该方法创新性地融合HMM分词、NLP分词、索引分词、最短路径分词等方法,并面向电力领域的各类设备中文名称进行改进。

首先依次使用多种中文分词方法,将涉及的电力设备名称文本切分为多个文本字符串,得到多种分词结果,然后使用预先配置的电力领域专用分词词典和权重值比重,在这些分词结果中进行遴选,最后计算出这些分词结果的综合评定分值,经过消岐处理后,采纳一个最大分值的分词结果。

本发明面向电力设备的中文分词方法,主要解决了传统单一的中文分词方法在面向电力设备名称文本字符串时,容易存在歧义、导致错误切分的问题,能够更加快速、准确地对电力这一特定领域的中文文本进行分词,提高了分词结果的准确性与可靠性。

以上结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解,其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换,而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的范围。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值