adnb34g的博客

互联网从业者,技术大白,hadoop,dkhadoop

汉语言处理工具pyhanlp的拼音转换与字符正则化

汉字转拼音 HanLP中的汉字转拼音功能也十分的强大。 说明: HanLP不仅支持基础的汉字转拼音,还支持声母、韵母、音调、音标和输入法首字母首声母功能。 HanLP能够识别多音字,也能给繁体中文注拼音。 最重要的是,HanLP采用的模式匹配升级到AhoCorasickDoubleArr...

2019-03-29 11:39:45

阅读数 57

评论数 0

汉语言处理工具pyhanlp的简繁转换

繁简转换 HanLP几乎实现了所有我们需要的繁简转换方式,并且已经封装到了HanLP中,使得我们可以轻松的使用,而分词器中已经默认支持多种繁简格式或者混合。这里我们不再做过多描述。 说明: ·HanLP能够识别简繁分歧词,比如打印机=印表機。许多简繁转换工具不能区分“以后”“皇后”中的两个“...

2019-03-29 10:10:45

阅读数 17

评论数 0

Hanlp中N最短路径分词详细介绍

N-最短路径是中科院分词工具NLPIR进行分词用到的一个重要算法,张华平、刘群老师在论文《基于N-最短路径方法的中文词语粗分模型》中做了比较详细的介绍。该算法算法基本思想很简单,就是给定一待处理字串,根据词典,找出词典中所有可能的词,构造出字串的一个有向无环图,算出从开始到结束所有路径中最短的前N...

2019-03-25 11:34:43

阅读数 34

评论数 0

Hanlp1.7版本的新增功能一览

Hanlp1.7版本在去年下半年的时候就随大快的DKH1.6版本同时发布了,截至目前1.7大版本也更新到了1.7.1了。本篇分别就1.7.0和1.7.1中新增的功能做一个简单的汇总介绍。 HanLP 是由一系列模型与算法组成的 Java 工具包,目标是普及自然语言处理在生产环境中的应用。Ha...

2019-03-22 09:11:26

阅读数 113

评论数 1

Hanlp汉字转拼音使用python调用详解

1、hanlp简介 HanLP是一系列模型与算法组成的NLP工具包,由大快搜索主导并完全开源,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。 开源网址:HanLP: Han Language Processing 但由于han...

2019-03-20 10:05:55

阅读数 68

评论数 0

如何在hanlp词典中手动添加未登录词

我们在使用hanlp词典进行分词的时候,难免会出现分词不准确的情况,原因是由于内置词典中并没有收录当前的这个词,也就是我们所说的未登录词,只要把这个词加入到内置词典中就可以解决类似问题,如何操作,下面我们就看一下具体的步骤 1、找到hanlp内置词典目录 位于D:\hnlp\hanlp...

2019-03-18 13:45:16

阅读数 38

评论数 0

Hanlp自然语言处理中的词典格式说明

使用过hanlp的都知道hanlp中有许多词典,它们的格式都是非常相似的,形式都是文本文档,随时可以修改。本篇文章详细介绍了hanlp中的词典格式,以满足用户自定义的需要。 基本格式 词典分为词频词性词典和词频词典。 1、词频词性词典(如CoreNatureDictionary.txt) ...

2019-03-15 10:27:38

阅读数 100

评论数 0

中文分词算法工具hanlp源码解析

词图 词图指的是句子中所有词可能构成的图。如果一个词A的下一个词可能是B的话,那么A和B之间具有一条路径E(A,B)。一个词可能有多个后续,同时也可能有多个前驱,它们构成的图我称作词图。 需要稀疏2维矩阵模型,以一个词的起始位置作为行,终止位置作为列,可以得到一个二维矩阵。例如:“他说的确实在...

2019-03-13 10:26:43

阅读数 91

评论数 0

Hanlp分词1.7版本在Spark中分布式使用记录

新发布1.7.0版本的hanlp自然语言处理工具包差不多已经有半年时间了,最近也是一直在整理这个新版本hanlp分词工具的相关内容。不过按照当前的整理进度,还需要一段时间再给大家详细分享整理的内容。昨天正好看到的这篇关于关于1.7.0版本hanlp分词在spark中的使用介绍的文章,顺便分享给大家...

2019-03-11 11:48:16

阅读数 69

评论数 0

Window离线环境下如何安装pyhanlp

Hanlp在离线环境下的安装我是没有尝试过的,分享SunJW_2017的这篇文章就是关于如何在离线环境下安装hanlp的。我们可以一起来学习一下! HanLP是一款优秀的中文自然语言处理工具,可以实现包括分词、词性标注、实体识别在内容诸多功能,详情见其项目主页。另外,该工具包还提供了python...

2019-03-08 09:43:41

阅读数 65

评论数 0

如何编译运行HanLP自然语言处理包

master分支 对于master分支,编译方法如下: git clone https://github.com/hankcs/HanLP.git mvn install -DskipTests ·由于目前一些test不够规范,使用了硬编码路径下的资源,所以暂时跳过单元测试。 ·该方...

2019-03-06 11:23:50

阅读数 68

评论数 0

如何在linux服务器上使用hanlp

关于如何在linux服务器上使用hanlp也有分享过一篇,但分享的内容与湘笑的这篇还是不同的。此处分享一下湘笑的这篇hanlp在linux服务器上使用的文章,供新手朋友学习之用。 本文主要工作是在linux服务器上使用hanlp, 测试源码主要是hanlp源码中的 HanLP-1.3.1\sr...

2019-03-04 08:31:57

阅读数 88

评论数 0

hanlp提取文本关键词的使用方法记录

本文是csu_zipple 分享的关于使用hanlp汉语言处理包提取关键词的过程一个简单的记录分享。想要使用hanlp提取文本关键词的新手朋友们可以参考学习一下! 如何在一段文本之中提取出相应的关键词呢? 之前有想过用机器学习的方法来进行词法分析,但是在项目中测试时正确率不够。于是这时候便有...

2019-03-01 08:51:33

阅读数 183

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭