自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(56)
  • 收藏
  • 关注

转载 中国电子信息产业发展研究院主办的2018中国软件大会上大快搜索“又双叒叕”获奖了...

大快搜索自荣获“2018中国大数据企业50强”殊荣,12月20日在由工信部指导,中国电子信息产业化发展研究院主办的2018中国软件大会上,大快搜索获评“2018中国大数据基础软件领域领军企业”称号,入选中国数字化转型TOP100服务商,《城市数据运河》获评优秀政务大数据解决方案。 图:工...

2018-12-24 10:29:00 150

转载 大数据产业发展创新技术新书《数据之翼》收录自然语言处理工具HanLP

在12月20日由中国电子信息产业发展研究院主办的2018中国软件大会上,大快搜索获评“2018中国大数据基础软件领域领军企业”,并成功入选中国数字化转型TOP100服务商。 图:大快搜索获评“2018中国大数据基础软件领域领军企业” 在本届2018中国软件大会上,不仅宣传并成立了数字转型...

2018-12-24 10:19:00 160

转载 lucene使用hanlp分词

maven依赖 <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://m...

2018-11-30 17:12:00 222

转载 Lucene7.0与HanLP分词器整合索引数据库建立索引文件

HanLP官网:http://hanlp.linrunsoft.com/ GitHup地址:https://github.com/hankcs/HanLP HanLP插件地址:https://github.com/hankcs/hanlp-lucene-plugin 需要一下jar包 ...

2018-11-28 17:08:00 190

转载 python3 安装pyhanlp方法

标签:文件链接路径链接http官方c++执行bspspa 直接pip install pyhanlp的时候会提示缺少Microsoft Visual c++环境, 其实没有Microsoft Visual c++环境也是可以的, 可以...

2018-11-28 14:23:00 265

转载 pyhanlp 停用词与用户自定义词典

hanlp的词典模式 之前我们看了hanlp的词性标注,现在我们就要使用自定义词典与停用词功能了,首先关于HanLP的词性标注方式具体请看HanLP词性标注集。 其核心词典形式如下: 自定义词典 自定义词典有多种添加模式,首先是展示的一个小例子,展示了词汇的动态增加与强行插入,删除等。更...

2018-11-23 16:00:00 157

转载 pyhanlp用户自定义词典添加

pyhanlp是python版封装的的HanLP,项目地址:https://github.com/hankcs/pyhanlp 经过测试,HanLP比nltk在中文分词和实体识别方面都更好用。 如何向pyhanlp添加自定义的词典?以python 2.7.9为例: 1.安装pyhanlp...

2018-11-23 15:51:00 343

转载 使用python语言安装stanfornlp 和hanlp安装包

安装stanfornlp 准备条件 win10 + jdk8(java安装包) + anaconda3 • 1)安装stanford nlp自然语言处理包: pip install stanfordcorenlp • 2)下载Stanford CoreNLP文件 https://stanfo...

2018-11-09 16:48:00 226

转载 在Hanlp词典和jieba词典中手动添加未登录词

在使用Hanlp词典或者jieba词典进行分词的时候,会出现分词不准的情况,原因是内置词典中并没有收录当前这个词,也就是我们所说的未登录词,只要把这个词加入到内置词典中就可以解决类似问题,如何操作呢,下面我们来看一下: 一,在Hanlp词典中添加未登录词 1.找到hanlp内置词典目录 位于...

2018-11-09 16:40:00 144

转载 使用Hanlp加载大字典

问题 因为需要加载一个 近 1G 的字典到Hanlp中,一开始使用了CustomDictionay.add() 方法来一条条的加载,果然到了中间,维护DoubleArraTre 的成本太高,添加一个节点,都会很长时间,本来时间长一点没有关系,只要训练出.bin 的文件,第二次加载就会很快,然而...

2018-11-09 16:34:00 100

转载 HanLP的配置及使用

HanLP的介绍主页: http://hanlp.linrunsoft.com/ HanLP的GitHub主页: https://github.com/hankcs/HanLP HanLP的具体说明讲解主页: http://www.hankcs.com/nlp/hanlp.html ...

2018-11-09 16:28:00 159

转载 11大Java开源中文分词器的使用方法和分词效果对比

本文的目标有两个: 1、学会使用11大Java开源中文分词器 2、对比分析11大Java开源中文分词器的分词效果 本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码,至于效果哪个好,那要用的人结合自己的应用场景自己来判断。 11大Java开源中文分词器,不同的分词器有不...

2018-11-09 16:20:00 107

转载 HanLP自然语言处理包开源

中文分词≠自然语言处理! 中文分词只是第一步;HanLP从中文分词开始,覆盖词性标注、命名实体识别、句法分析、文本分类等常用任务,提供了丰富的API。 不同于一些简陋的分词类库,HanLP精心优化了内部数据结构和IO接口,做到了毫秒级的冷启动、千万字符每秒的处理速度,而内存最低仅...

2018-11-09 16:12:00 1111

转载 在CSharp中调用HanLP

今天有用户想在CSharp里调用HanLP的API,遇到了些小问题。所以我干脆自己写了个指南,一步步演示IKVM与HanLP的集成方法,供广大C#程序员参考。本方法也可推广到用C#调用任何Java jar类库,并解决classpath的问题。 IKVM简介 IKVM.NET是一款开源...

2018-11-08 17:17:00 546

转载 Python调用自然语言处理包HanLP

一句话安装pyhanlp,全自动下载安装配置,还支持升级。 pipinstallpyhanlp 调用方法参考项目主页:https://github.com/hankcs/pyhanlp Windows用户如果遇到: building'_jpype'...

2018-11-08 17:00:00 91

转载 HanLP极致简繁转换

谈起简繁转换,许多人以为是小意思,按字转换就行了。事实上,汉语历史悠久,地域复杂,发展至今在字符级别存在“一简对多繁”和“一繁对多简”,在词语级别上存在“简繁分歧词”,在港澳台等地则存在“字词习惯不同”的情况。为此,HanLP新增了“简体”“繁体”“臺灣正體”“香港繁體”间的相互转换功能,力图...

2018-11-07 15:43:00 255

转载 安装elasticsearch中文切词插件hanlp

hanlp好处的,就是它的data字典比较齐全. github上有国人写hanlp支持es的插件 https://github.com/pengcong90/elasticsearch-analysis-hanlp 1 下载它的安装release包 下载发现解压按它的安装要求总找不到ha...

2018-11-07 15:28:00 186

转载 汉语言处理包 HanLP v1.3.5,新功能、优化与维护

HanLP v1.3.5 更新内容: 大幅优化CRF分词和二阶HMM分词,重构CharacterBasedGenerativeModelSegment 自定义词典支持热更新:#563,ngram模型支持热加载:#580 新增一个提高用户词典优先级的开关:#633 ...

2018-11-07 15:17:00 137

转载 HanLP中人名识别分析

在看源码之前,先看几遍论文《基于角色标注的中国人名自动识别研究》 关于命名识别的一些问题,可参考下列一些issue: 名字识别的问题 #387 机构名识别错误 关于层叠HMM中文实体识别的过程 HanLP参考博客: 词性标注 层叠HMM-Viterbi角色标注模型下...

2018-11-07 15:03:00 223

转载 HanLP汉语言分析框架

  HanLP(Han Language Processing)是由一系列模型与算法组成的Java工具包,目标是普及自然语言处理在生产环境中的应用。 HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。 环境搭建 1.创建java项目,导入HanLP必要的包 2....

2018-11-07 14:36:00 183

转载 汉语言处理包 HanLP v1.6.0 发布,感知机词法分析器

HanLP 是由一系列模型与算法组成的 Java 工具包,目标是普及自然语言处理在生产环境中的应用。HanLP 具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。 在提供丰富功能的同时,HanLP 内部模块坚持低耦合、模型坚持惰性加载、服务坚持静态提供、词典坚持明文发布,使用非常方便...

2018-11-06 15:44:00 101

转载 运用hanlp 通过 python 结合jpype 导出依存句法可视化

效果图 ------------------------------------------------------- >>> from jpype import * >>> ... startJVM(getDefaultJVMPath(), "-...

2018-11-06 15:36:00 138

转载 ubuntu下使用pycharm调用Hanlp自然语言处理包

首先点击File,选择Settings,在Project下点击ProjectInterpreter,并通过点击右边的加号: 搜索JPype,根据python版本选择你需要的JPype版本安装。 之后,在https://github.com/hankcs/HanLP/releases ...

2018-11-05 15:20:00 186

转载 hanlp for elasticsearch(基于hanlp的es分词插件)

摘要:elasticsearch是使用比较广泛的分布式搜索引擎,es提供了一个的单字分词工具,还有一个分词插件ik使用比较广泛,hanlp是一个自然语言处理包,能更好的根据上下文的语义,人名,地名,组织机构名等来切分词 elasticsearch-analysis-hanlp插件地址:htt...

2018-11-05 15:05:00 147

转载 中文分词利器 jieba 和 HanLP

前言 从本文开始,我们进入实战部分。首先,我们按照中文自然语言处理流程的第一步获取语料,然后重点进行中文分词的学习。中文分词有很多种,常见的比如有中科院计算所 NLPIR、哈工大 LTP、清华大学 THULAC 、斯坦福分词器、Hanlp 分词器、jieba 分词、IKAnalyzer 等...

2018-11-05 14:59:00 156

转载 HanLP 关键词提取算法分析

标签:演示uil排除疑问ringrodpaptrylis HanLP 关键词提取算法分析 参考论文:《TextRank: Bringing Order into Texts》 TextRank算法提取关键词的Java实现 ...

2018-11-05 14:53:00 99

转载 HanLP用户自定义词典源码分析

标签:通过默认-ohtmlclass配置boolean定义ict HanLP用户自定义词典源码分析 1. 官方文档及参考链接 关于词典问题Issue,首先参考:FAQ 自定义词典其实是基于规则的分词,它的用法参考这...

2018-11-05 14:46:00 132

转载 利用HanLP计算中文词语语义相似度

HanLP官方GitHub地址 HanLP 在java项目中配置HanLP 推荐使用Maven方法 在poem.xml中加入以下代码 <dependency> <groupId>com.hankcs</groupId> &...

2018-11-03 14:17:00 1804

转载 汉语言处理包 HanLP v1.6.0 发布,感知机词法分析器

HanLP 是由一系列模型与算法组成的 Java 工具包,目标是普及自然语言处理在生产环境中的应用。HanLP 具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。 在提供丰富功能的同时,HanLP 内部模块坚持低耦合、模型坚持惰性加载、服务坚持静态提供、词典坚持明文发布,使用非常方便...

2018-11-03 14:09:00 128

转载 Hanlp自然语言处理工具的使用演练

Hanlp是由一系列模型与算法组成的工具包,目标是普及自然语言处理在生产环境中的应用。Hanlp具备功能完善、性能高效、架构清洗、语料时新、可自定义的特点;提供词法分析(中文分词、磁性标注、命名实体识别)、句法分析、文本分类和情感分析等功能。 本篇将用户输入的语句根据词库进行分词、关键词提取...

2018-11-03 13:41:00 135

转载 自然语言处理入门基础之hanlp详解

自然语言处理定义: 自然语言处理是一门计算机科学、人工智能以及语言学的交叉学科。虽然语言只是人工智能的一部分(人工智能还包括计算机视觉等),但它是非常独特的一部分。这个星球上有许多生物拥有超过人类的视觉系统,但只有人类才拥有这么高级的语言。 自然语言处理的目标是让计算机处理或说“理解”自然...

2018-11-03 13:36:00 239

转载 python调用Hanlp做命名实体识别以及词性标注

之前需要做一个中文命名实体识别的api,看完了一些相关论文以后觉得短时间内自己实现不大现实,于是找了一些开源工具,其中哈工大的LTP效果是很好的,但是免费使用限流量,需要给钱才行; NLPIR的pynlpir似乎还不能支持命名实体识别等复杂工作,只能做一些分词之类;最后还剩下Hanlp,感谢H...

2018-11-03 13:29:00 565

转载 hanlp 如何快速从分词仅取出人名

最近在学习用hanlp分词做关键词提取,但是现在有一个问题,虽然hanlp中各种功能直接调用很方便了,那么如果我需要从人名识别中仅仅提取出人名怎么操作呢? 我按照官方的示例代码,发现输出的list是人名后面带有nr标记,我应该怎么操作把人名提出来呢? java小白,多谢大神们的指教! 附上官方...

2018-11-02 17:17:00 718

转载 结巴分词和自然语言处理HanLP处理手记

阅读目录 手记实用系列文章: 代码封装类: 运行效果: 手记实用系列文章: 1结巴分词和自然语言处理HanLP处理手记 2Python中文语料批量预处理手记 3自然语言处理手记 4Python中调用自然语言处理工具HanLP手记 5Python...

2018-11-02 17:11:00 185

转载 Spark中使用HanLP分词

1.将HanLP的data(包含词典和模型)放到hdfs上,然后在项目配置文件hanlp.properties中配置root的路径,比如: root=hdfs://localhost:9000/tmp/ 2.实现com.hankcs.hanlp.corpus.io.IIOAdapter接口...

2018-11-02 16:00:00 250

转载 hanlp源码解读之字符正规化CharTable

概述:字符正规化是指在分词之前把繁体转成简体、大写转成小写等,在自然语言处理中这是必不可以的一个步骤!在hanlp中的实现方法是基于词典的,也就是正规则字符对照表。就是“data/dictionary/other/CharTable.txt” 这个词典,打开后是下面这个样子的! 在jav...

2018-10-26 13:39:00 126

转载 linux 命令行使用hanlp

本文主要工作是在linux服务器上使用hanlp, 测试源码主要是hanlp源码中的 1. 文件内容结构介绍 本人的工作目录命名为hanlp,该目录下主要由以下文件: META-INF 存放文件MANIFEST.MF文件 main 文件夹对应hanlp源码中H...

2018-10-26 11:56:00 67

转载 如何在ubuntu使用hanlp

前言   以前,我对大部分的处理中文分词都是使用python的结巴分词工具,该分词工具是在线调用API, 关于这个的分词工具的原理介绍,我推荐一个好的博客: http://blog.csdn.net/daniel_ustc/article/details/48195287.   随着项目的...

2018-10-26 11:49:00 72

转载 python调用HanLP

1.首先安装jpype 首先各种坑,jdk和python 版本位数必须一致,我用的是JPype1-py3 版本号0.5.5.2 、1.6jdk和Python3.5,win7 64位下亲测没问题。 否则死翘翘,有可能虚拟机都无法启动: 出错调试,原因已说;测试成功会有输出。 下面启动...

2018-10-26 11:43:00 88

转载 汉语言处理包Hanlp的使用

本来想通过python调用Java实现Hanlp的使用,参考文章:http://t.cn/RUrIF7z ##########python可以用easy_install安装一些软件############ 1.JPype使用介绍 参考:http://michael-paul.iteye.com...

2018-10-26 11:34:00 222

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除