自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

adnb34g的博客

互联网从业者,技术大白,hadoop,dkhadoop

  • 博客(13)
  • 收藏
  • 关注

原创 如何在java中去除中文文本的停用词

1. 整体思路第一步:先将中文文本进行分词,这里使用的HanLP-汉语言处理包进行中文文本分词。第二步:使用停用词表,去除分好的词中的停用词。2. 中文文本分词环境配置使用的HanLP-汉语言处理包进行中文文本分词。·HanLP-汉语言处理包下载,可以去github上下载·HanLP的环境配置有两种方式:方式一、Maven;方式二、下载jar、data、hanlp.p...

2019-04-30 08:57:49 1719

原创 hanlp 加载远程词库示例

说明·目前的实现方式是以远程词库的内容重新构建CustomDictionary.trie,demo主要是为了实现同步远程词库,对性能暂不作考虑,对性能要求要以CustomDictionary.dat为基础实现按hanlp作者述 trie后期可能会取消目前CustomDictionary使用DAT储存词典文件中的词语,用BinTrie储存动态加入的词语,前者性能高,后者性能低之...

2019-04-26 10:55:09 968

原创 HanLP 自然语言处理 for nodejs

·支持中文分词(N-最短路分词、CRF分词、索引分词、用户自定义词典、词性标注),命名实体识别(中国人名、音译人名、日本人名、地名、实体机构名识别),关键词提取,自动摘要,短语提取,拼音转换,简繁转换,文本推荐,依存句法分析(MaxEnt依存句法分析、CRF依存句法分析)环境要求java 1.8nodejs >= 6docker·build image...

2019-04-24 10:37:57 534

原创 HanLP Analysis for Elasticsearch

基于 HanLP 的 Elasticsearch 中文分词插件,核心功能:兼容 ES 5.x-7.x;内置词典,无需额外配置即可使用;支持用户自定义词典;支持远程词典热更新(待开发);内置多种分词模式,适合不同场景;拼音过滤器(待开发);简繁体转换过滤器(待开发)。版本插件版本和 ES 版本一致,直接下载对应版本的插件进行安装即可。·插件开发完成...

2019-04-22 13:07:02 552

转载 HanLP vs LTP 分词功能测试

文章摘自github,本次测试选用 HanLP 1.6.0 , LTP 3.4.0测试思路使用同一份语料训练两个分词库,同一份测试数据测试两个分词库的性能。语料库选取1998年01月的人民日报语料库。199801人民日报语料该词库带有词性标注,为了遵循LTP的训练数据集格式,需要处理掉词性标注。测试数据选择SIGHan2005提供的开放测试集。SIG...

2019-04-19 09:55:31 891

原创 HanLP Android 示例

portable版portable版零配置,仅提供中文分词、简繁拼音、同义词等功能。只需在build.gradle中加入依赖:dependencies {compile 'com.hankcs:hanlp:portable-1.6.8'}自定义版HanLP的全部功能(分词、简繁、拼音、文本分类、句法分析)都兼容安卓,具体配置方法如下:...

2019-04-17 10:35:50 403

原创 HanLP Android 示例

portable版portable版零配置,仅提供中文分词、简繁拼音、同义词等功能。只需在build.gradle中加入依赖:dependencies {compile 'com.hankcs:hanlp:portable-1.6.8'}自定义版HanLP的全部功能(分词、简繁、拼音、文本分类、句法分析)都兼容安卓,具体配置方法如下...

2019-04-17 10:05:34 487 1

转载 HanLP中文分词Lucene插件

基于HanLP,支持包括Solr(7.x)在内的任何基于Lucene(7.x)的系统。Maven<dependency><groupId>com.hankcs.nlp</groupId><artifactId>hanlp-lucene-plugin</artifactId>...

2019-04-15 09:33:51 569

转载 pyhanlp:hanlp的python接口

HanLP的Python接口,支持自动下载与升级HanLP,兼容py2、py3。安装pip install pyhanlp使用命令hanlp来验证安装,如因网络等原因自动安装失败,可参考手动配置或Windows指南。命令行中文分词使用命令hanlp segment进入交互分词模式,输入一个句子并回车,HanLP会输出分词结果:$ hanlp segmen...

2019-04-12 10:10:45 3771

原创 Hanlp自然语言处理工具之词法分析器

本章是接前两篇《分词工具Hanlp基于感知机的中文分词框架》和《基于结构化感知机的词性标注与命名实体识别框架》的。本系统将同时进行中文分词、词性标注与命名实体识别3个任务的子系统称为“词法分析器”。加载对应的类为PerceptronLexicalAnalyzer,其构造方法为递增的3个模型地址:public PerceptronLexicalAnalyzer(String cwsMod...

2019-04-10 09:32:30 742

原创 基于结构化感知机的词性标注与命名实体识别框架

上周就关于《结构化感知机标注框架的内容》已经分享了一篇《分词工具Hanlp基于感知机的中文分词框架》,本篇接上一篇内容,继续分享词性标注与命名实体识别框架的内容。词性标注训练词性标注是分词后紧接着的一个任务,训练语料同上,接口如下:命令行java -cp hanlp.jar com.hankcs.hanlp.model.perceptron.Main -task PO...

2019-04-08 13:20:29 1252

原创 分词工具Hanlp基于感知机的中文分词框架

结构化感知机标注框架是一套利用感知机做序列标注任务,并且应用到中文分词、词性标注与命名实体识别这三个问题的完整在线学习框架,该框架利用1个算法解决3个问题,时自治同意的系统,同时三个任务顺序渐进,构成流水线式的系统。本文先介绍中文分词框架部分内容。中文分词训练只需指定输入语料的路径(单文档时为文件路径,多文档时为文件夹路径,灵活处理),以及模型保存位置即可:命令行java...

2019-04-03 10:15:46 1453

转载 Android环境下hanlp汉字转拼音功能的使用介绍

由于项目需要在Android手机设备上实现汉字转拼音功能(支持多音字),于是首先想到了Pinyin4j+多音字映射对照表的实现方案,并在项目中试用了一段时间,发现数据量大时,其耗时非常严重。后来寻找其他方案,在github上找到了HanLP开源库,其多音字转换速度非常快,但是没有针对Android平台进行适配,于是对代码进行了一些修改,终于可以在Android手机上运行。修改后的工程已上传至git...

2019-04-01 11:44:47 236

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除