adnb34g的博客

互联网从业者,技术大白,hadoop,dkhadoop

排序:
默认
按更新时间
按访问量
RSS订阅

如何在java中去除中文文本的停用词

1. 整体思路 第一步:先将中文文本进行分词,这里使用的HanLP-汉语言处理包进行中文文本分词。 第二步:使用停用词表,去除分好的词中的停用词。 2. 中文文本分词环境配置 使用的HanLP-汉语言处理包进行中文文本分词。 ·HanLP-汉语言处理包下载,可以去github上下载 ·...

2019-04-30 08:57:49

阅读数 63

评论数 0

hanlp 加载远程词库示例

说明 ·目前的实现方式是以远程词库的内容重新构建CustomDictionary.trie,demo主要是为了实现同步远程词库,对性能暂不作考虑,对性能要求要以CustomDictionary.dat为基础实现 按hanlp作者述 trie后期可能会取消 目前CustomDictiona...

2019-04-26 10:55:09

阅读数 53

评论数 0

HanLP Android 示例

portable版 portable版零配置,仅提供中文分词、简繁拼音、同义词等功能。只需在build.gradle中加入依赖: dependencies { compile 'com.hankcs:hanlp:portable-1.6.8' } 自定义版 HanLP的...

2019-04-17 10:35:50

阅读数 55

评论数 0

自然语言处理工具python调用hanlp中文实体识别

Hanlp作为一款重要的中文分词工具,在GitHub的用户量已经非常之高,应该可以看得出来大家对于hanlp这款分词工具还是很认可的。本篇继续分享一篇关于hanlp的使用实例即Python调用hanlp进行中文实体识别。 想要在python中调用hanlp进行中文实体识别,Ubuntu 16.0...

2019-02-13 08:54:41

阅读数 268

评论数 0

如何使用Hanlp加载大字典

问题 因为需要加载一个 近 1G 的字典到Hanlp中,一开始使用了CustomDictionay.add() 方法来一条条的加载,果然到了中间,维护DoubleArraTre 的成本太高,添加一个节点,都会很长时间,本来时间长一点没有关系,只要训练出.bin 的文件,第二次加载就会很快,然...

2019-01-23 09:42:30

阅读数 73

评论数 0

基于结构化平均感知机的分词器Java实现

最近高产似母猪,写了个基于AP的中文分词器,在Bakeoff-05的MSR语料上F值有96.11%。最重要的是,只训练了5个迭代;包含语料加载等IO操作在内,整个训练一共才花费23秒。应用裁剪算法去掉模型中80%的特征后,F值才下降不到0.1个百分点,体积控制在11兆。如果训练一百个迭代,F值可达...

2019-01-14 09:22:41

阅读数 142

评论数 0

pyhanlp 共性分析与短语提取内容详解

  简介 HanLP中的词语提取是基于互信息与信息熵。想要计算互信息与信息熵有限要做的是 文本分词进行共性分析。在作者的原文中,有几个问题,为了便于说明,这里首先给出短语提取的原理。在文末在给出pyhanlp的调用代码。 共性分析   互信息mi,左熵lr,右熵re,详细解释见下文 ...

2019-01-04 09:19:51

阅读数 131

评论数 0

HanLP的自定义词典使用方式与注意事项介绍

【环境】python 2.7 方法一:使用pyhanlp,具体方法如下: pip install pyhanlp  # 安装pyhanlp 进入python安装包路径,如 /usr/lib/python2.7/site-packages/pyhanlp/static/ 将http://h...

2019-01-02 09:36:06

阅读数 96

评论数 0

简单有效的多标准中文分词详解

简单有效的多标准中文分词详解 本文介绍一种简洁优雅的多标准中文分词方案,可联合多个不同标准的语料库训练单个模型,同时输出多标准的分词结果。通过不同语料库之间的迁移学习提升模型的性能,在10个语料库上的联合试验结果优于绝大部分单独训练的模型。模型参数和超参数全部共享,复杂度不随语料库种类增长。 ...

2018-12-28 11:13:22

阅读数 85

评论数 0

python调用hanlp分词包手记

  Hanlp作为一款重要的分词工具,本月初的时候看到大快搜索发布了hanlp的1.7版本,新增了文本聚类、流水线分词等功能。关于hanlp1.7版本的新功能,后面有使用的到时候在给大家分享。本篇分享一个在python里调用hanlp分词包的过程文章,供需要的朋友参考学习交流!以下为文章内容...

2018-12-26 09:32:11

阅读数 65

评论数 0

MapReduce实现与自定义词典文件基于hanLP的中文分词详解

  前言: 文本分类任务的第1步,就是对语料进行分词。在单机模式下,可以选择python jieba分词,使用起来较方便。但是如果希望在Hadoop集群上通过mapreduce程序来进行分词,则hanLP更加胜任。 一、使用介绍 hanLP是一个用java语言开发的分词工具, 官网是 h...

2018-10-15 13:42:58

阅读数 34

评论数 0

机器学习的趋势和人工智能的未来

机器学习的趋势和人工智能的未来 每家公司现在是一个数据公司,在一定范围能够使用机器学习在云中部署智能应用程序,这归功于三个机器学习的趋势:数据飞轮,算法经济,和智能云托管。   有了机器学习模型,企业现在可以快速分析大型,复杂的数据,并提供更快,更准确的见解,没有部署和维护机器学习系统的...

2018-10-10 14:12:08

阅读数 58

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭