自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

adnb34g的博客

互联网从业者,技术大白,hadoop,dkhadoop

转载 HanLP-命名实体识别总结

人名识别 在HanLP中,基于角色标注识别了中国人名。首先系统利用隐马尔可夫模型标注每个词语的角色,之后利用最大模式匹配法对角色序列进行匹配,匹配上模式的即为人名。理论指导文章为:《基于角色标注的中国人名自动识别研究》,大家可以百度一下看看 地名识别 理论指导文章为:《基于层叠隐...

2019-07-31 09:48:29

阅读数 116

评论数 0

转载 Hanlp-地名识别调试方法详解

HanLP收词特别是实体比较多,因此特别容易造成误识别。下边举几个地名误识别的例子,需要指出的是,后边的机构名识别也以地名识别为基础,因此,如果地名识别不准确,也会导致机构名识别不准确。 类型1 数字+地名 [1] 暗访哈尔滨网约车:下10单来7辆“黑车” 1辆套牌 [2] 房天...

2019-07-29 09:44:19

阅读数 40

评论数 0

原创 自然语言处理工具HanLP-基于层叠HMM地名识别

本篇接上一篇内容《HanLP-基于HMM-Viterbi的人名识别原理介绍》介绍一下层叠隐马的原理。 首先说一下上一篇介绍的人名识别效果对比: 1. 只有Jieba识别出的人名 准确率极低,基本为地名或复杂地名组成部分或复杂机构名组成部分。举例如下: [1] 战乱的阿富汗地区,枪支可随意买...

2019-07-26 09:11:52

阅读数 39

评论数 0

原创 HanLP-基于HMM-Viterbi的人名识别原理介绍

Hanlp自然语言处理包中的基于HMM-Viterbi处理人名识别的内容大概在年初的有分享过这类的文章,时间稍微久了一点,有点忘记了。看了 baiziyu 分享的这篇比我之前分享的要简单明了的多。下面就把文章分享给大家交流学习之用,部分内容有做修改。 基 本文主要介绍一下HanLP是如何利...

2019-07-24 09:38:31

阅读数 26

评论数 0

转载 HanLP-朴素贝叶斯分类预测缺陷

文章整理自baiziyu的知乎专栏,感兴趣的朋友可以去关注下这位大神的专栏,很多关于自然语言处理的文章写的很不错。昨天看到他的分享的两篇关于朴素贝叶斯分类预测的文章,整理了一下分享给给大家,文章已做部分修改! 朴素贝叶斯分类时,最好取对数变相乘为相加,防止预测结果溢出。可能出现的badcase就...

2019-07-22 09:22:32

阅读数 35

评论数 0

原创 HanLP-地名识别调试方法

HanLP收词特别是实体比较多,因此特别容易造成误识别。下边举几个地名误识别的例子,需要指出的是,后边的机构名识别也以地名识别为基础,因此,如果地名识别不准确,也会导致机构名识别不准确。 类型1 数字+地名 [1] 暗访哈尔滨网约车:下10单来7辆“黑车” 1辆套牌 [2] 房天下每日成...

2019-07-19 09:39:34

阅读数 145

评论数 0

转载 自然语言处理工具python调用hanlp的方法步骤

Python调用hanlp的方法此前有分享过,本篇文章分享自“逍遥自在017”的博客,个别处有修改,阅读时请注意! 1.首先安装jpype 首先各种坑,jdk和python 版本位数必须一致,我用的是JPype1-py3 版本号0.5.5.2 、1.6jdk和Python3.5,win7 64...

2019-07-17 09:22:29

阅读数 28

评论数 0

转载 python调用hanlp进行命名实体识别

本文分享自6丁一的猫 的博客,主要是python调用hanlp进行命名实体识别的方法介绍。以下为分享的全文。 1、python与jdk版本位数一致 2、pip install jpype1(python3.5) 3、类库hanlp.jar包、模型data包、配置文件hanlp.propert...

2019-07-15 09:11:35

阅读数 31

评论数 0

转载 hanlp添加自定义字典的步骤介绍

本篇分享一个hanlp添加自定义字典的方法,供大家参考! 总共分为两步: 第一步:将自定义的字典放到custom目录下,然后删除CustomDicionary.txt.bin,因为分词的时候会读这个文件。如果没有的话它会根据配置文件中路径去加载字典生成bin文件。 第二步:去配置...

2019-07-12 09:12:55

阅读数 21

评论数 0

翻译 Spring MVCD框架中调用HanLP分词的方法

项目简要:关于java web的一个项目,用的Spring MVCd 框架。鉴于参与此次项目的人中并不是所人都做的Spring,为了能够提高效率,建议大家是先抛开SPring来写自己负责的模块,最后再把各个模块在Spring里面集成。 项目里有一个文本分析的模块是一个同学用hanlp写的,由于在...

2019-07-10 10:05:07

阅读数 24

评论数 0

原创 java分词工具hanlp介绍

前几天(6月28日),在第23届中国国际软件博览会上,hanlp这款自然语言处理工具荣获了“2019年第二十三届中国国际软件博览会优秀产品”。 HanLP是由一系列模型预算法组成的工具包,结合深度神经网络的分布式自然语言处理,具有功能完善、性能高效、架构清晰、语料时新、可自定义等特点,提供词...

2019-07-03 10:15:57

阅读数 67

评论数 0

转载 基于hanlp的es分词插件

摘要:elasticsearch是使用比较广泛的分布式搜索引擎,es提供了一个的单字分词工具,还有一个分词插件ik使用比较广泛,hanlp是一个自然语言处理包,能更好的根据上下文的语义,人名,地名,组织机构名等来切分词 Elasticsearch 默认分词 输出: IK分...

2019-07-01 10:26:49

阅读数 30

评论数 0

提示
确定要删除当前文章?
取消 删除