![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据 hanlp
文章平均质量分 73
adnb34g
这个作者很懒,什么都没留下…
展开
-
HanLP代码与词典分离方案与流程
HanLP代码与词典分离方案与流程之前在spark环境中一直用的是portable版本,词条数量不是很够,且有心想把jieba,swcs词典加进来,其他像ik,ansi-seg等分词词典由于没有词性并没有加进来. 本次修改主要是采用jar包方包将词典目录data与hanlp.properties合成一个data.jar文件.1. pom.xml 过滤资源文件的配置 ...原创 2018-10-10 10:29:47 · 229 阅读 · 0 评论 -
HanLP极致简繁转换详细讲解
作者: hankcs(大快高级研究员 hanlp项目负责人)谈起简繁转换,许多人以为是小意思,按字转换就行了。事实上,汉语历史悠久,地域复杂,发展至今在字符级别存在“一简对多繁”和“一繁对多简”,在词语级别上存在“简繁分歧词”,在港澳台等地则存在“字词习惯不同”的情况。为此,HanLP新增了“简体”“繁体”“臺灣正體”“香港繁體”间的相互转换功能,力图将简繁转换做到极致。关于这些...转载 2019-01-09 09:49:35 · 888 阅读 · 0 评论 -
在Hanlp词典手动添加未登录词的方式介绍
在使用Hanlp词典进行分词的时候,会出现分词不准的情况,原因是内置词典中并没有收录当前这个词,也就是我们所说的未登录词,只要把这个词加入到内置词典中就可以解决类似问题,如何操作呢,下面我们来看一下:一,在Hanlp词典中添加未登录词1.找到hanlp内置词典目录位于D:\hnlp\hanlp_code\hanlp\data\dictionary\custom 也就是Hanlp安装包中...转载 2019-01-25 09:35:57 · 206 阅读 · 0 评论 -
spark集群使用hanlp进行分布式分词操作说明
本篇分享一个使用hanlp分词的操作小案例,即在spark集群中使用hanlp完成分布式分词的操作,文章整理自【qq_33872191】的博客,感谢分享!以下为全文:分两步:第一步:实现hankcs.hanlp/corpus.io.IIOAdapter 1. public class HadoopFileIoAdapter implements IIOAdapter {2....转载 2019-01-21 09:47:11 · 923 阅读 · 0 评论 -
基于CRF序列标注的中文依存句法分析器的Java实现
这是一个基于CRF的中文依存句法分析器,内部CRF模型的特征函数采用 双数组Trie树(DoubleArrayTrie)储存,解码采用特化的维特比后向算法。相较于《最大熵依存句法分析器的实现》,分析速度翻了一倍,达到了1262.8655 sent/s开源项目本文代码已集成到HanLP中开源项目中,最新hanlp1.7版本已经发布CRF简介CRF是序列标注场景中常用的模型,比HMM能...转载 2019-01-16 11:07:27 · 444 阅读 · 1 评论 -
自然语言处理工具hanlp自定义词汇添加图解
过程分析1.添加新词需要确定无缓存文件,否则无法使用成功,因为词典会优先加载缓存文件2.再确认缓存文件不在时,打开本地词典按照格式添加自定义词汇。3.调用分词函数重新生成缓存文件,这时会报一个找不到缓存文件的异常,不用管,因为加载词典进入内存是会优先加载缓存,缓存不在当然会报异常,然后加载词典生成缓存文件,最后处理字符进行分词就会发现新添加的词汇可以进行分词了。操作过程图解:1...转载 2019-01-27 09:40:23 · 1171 阅读 · 1 评论 -
如何使用Hanlp加载大字典
问题因为需要加载一个 近 1G 的字典到Hanlp中,一开始使用了CustomDictionay.add() 方法来一条条的加载,果然到了中间,维护DoubleArraTre 的成本太高,添加一个节点,都会很长时间,本来时间长一点没有关系,只要训练出.bin 的文件,第二次加载就会很快,然而作为以空间换时间的DAT结构,内存消耗很大,预料之内的出现了1 out of memory:...转载 2019-01-23 09:42:30 · 489 阅读 · 0 评论 -
自然语言处理工具python调用hanlp中文实体识别
Hanlp作为一款重要的中文分词工具,在GitHub的用户量已经非常之高,应该可以看得出来大家对于hanlp这款分词工具还是很认可的。本篇继续分享一篇关于hanlp的使用实例即Python调用hanlp进行中文实体识别。想要在python中调用hanlp进行中文实体识别,Ubuntu 16.04的系统环境1. 安装jpype1,在cmd窗口输入 pip install jpype1...原创 2019-02-13 08:54:41 · 1727 阅读 · 0 评论 -
中文自然语言处理工具hanlp隐马角色标注详解
本文旨在介绍如何利用HanLP训练分词模型,包括语料格式、语料预处理、训练接口、输出格式等。 目前HanLP内置的训练接口是针对一阶HMM-NGram设计的,另外附带了通用的语料加载工具,可以通过少量代码导出供其他训练工具使用的特定格式(如CRF++)。语料格式输入语料格式为人民日报分词语料库格式。该格式并没有明确的规范,但总体满足以下几点:1、单词与词性之间使用“/”分割,如华尔街/...原创 2019-02-13 14:31:26 · 702 阅读 · 0 评论 -
pyhanlp文本分类与情感分析
语料库本文语料库特指文本分类语料库,对应IDataSet接口。而文本分类语料库包含两个概念:文档和类目。一个文档只属于一个类目,一个类目可能含有多个文档。比如搜狗文本分类语料库迷你版.zip,下载前请先阅读搜狗实验室数据使用许可协议。用Map描述这种关系可以用Java的Map<String, String[]>来描述,其key代表类目,value代表该类目下的所有文档。用户...转载 2019-02-20 13:59:06 · 1765 阅读 · 0 评论 -
如何在linux服务器上使用hanlp
关于如何在linux服务器上使用hanlp也有分享过一篇,但分享的内容与湘笑的这篇还是不同的。此处分享一下湘笑的这篇hanlp在linux服务器上使用的文章,供新手朋友学习之用。本文主要工作是在linux服务器上使用hanlp, 测试源码主要是hanlp源码中的HanLP-1.3.1\src\test\java\com\hankcs\demo\DemoKeyword.java(han...转载 2019-03-04 08:31:57 · 708 阅读 · 0 评论 -
基于结构化平均感知机的分词器Java实现
最近高产似母猪,写了个基于AP的中文分词器,在Bakeoff-05的MSR语料上F值有96.11%。最重要的是,只训练了5个迭代;包含语料加载等IO操作在内,整个训练一共才花费23秒。应用裁剪算法去掉模型中80%的特征后,F值才下降不到0.1个百分点,体积控制在11兆。如果训练一百个迭代,F值可达到96.31%,训练时间两分多钟。数据在一台普通的IBM兼容机上得到:本模块已集成到Han...转载 2019-01-14 09:22:41 · 1128 阅读 · 0 评论 -
自然语言处理hanlp的入门基础
此文整理的基础是建立在hanlp较早版本的基础上的,虽然hanlp的最新1.7版本已经发布,但对于入门来说差别不大!分享一篇比较早的“旧文”给需要的朋友!安装HanLPHanLP将数据与程序分离,给予用户自定义的自由。 HanLP由三部分组成:HanLP = .jar + data + .properties ,请前往 项目主页 下载这三个部分。1、下载jar放入clas...转载 2019-01-18 09:58:48 · 934 阅读 · 0 评论 -
MapReduce实现与自定义词典文件基于hanLP的中文分词详解
前言:文本分类任务的第1步,就是对语料进行分词。在单机模式下,可以选择python jieba分词,使用起来较方便。但是如果希望在Hadoop集群上通过mapreduce程序来进行分词,则hanLP更加胜任。一、使用介绍hanLP是一个用java语言开发的分词工具, 官网是 http://hanlp.com/ 。 hanLP创建者提供了两种使用方式,一种是portable简化版...原创 2018-10-15 13:42:58 · 187 阅读 · 0 评论 -
pyhanlp用户自定义词典添加实例说明
pyhanlp是python版封装的的HanLP,项目地址:https://github.com/hankcs/pyhanlp经过测试,HanLP比nltk在中文分词和实体识别方面都更好用.如何向pyhanlp添加自定义的词典?以python 2.7.9为例:1.安装pyhanlp:pip install pyhanlp2.在字典路径下添加自定义的词典:CustomDictio...转载 2018-12-17 10:37:48 · 709 阅读 · 0 评论 -
简单有效的多标准中文分词详解
简单有效的多标准中文分词详解本文介绍一种简洁优雅的多标准中文分词方案,可联合多个不同标准的语料库训练单个模型,同时输出多标准的分词结果。通过不同语料库之间的迁移学习提升模型的性能,在10个语料库上的联合试验结果优于绝大部分单独训练的模型。模型参数和超参数全部共享,复杂度不随语料库种类增长。(相关内容已经集成到大快的hanlp中,代码和语料可访问github上的hanlp开源项目主页查询)...转载 2018-12-28 11:13:22 · 414 阅读 · 0 评论 -
自然语言处理工具HanLP被收录中国大数据产业发展的创新技术新书《数据之翼》
在12月20日由中国电子信息产业发展研究院主办的2018中国软件大会上,大快搜索获评“2018中国大数据基础软件领域领军企业”,并成功入选中国数字化转型TOP100服务商。 在本届2018中国软件大会上,不仅宣传并成立了数字转型促进会,还发布了由中国大数据产业生态联盟副秘书长、《软件和集成电路》杂志社总编辑郭嘉凯编辑的新书——《数据之翼-引领中国大数据产业发展的创新技术》。在本书的第一...原创 2018-12-24 09:24:53 · 274 阅读 · 0 评论 -
pyhanlp 共性分析与短语提取内容详解
简介HanLP中的词语提取是基于互信息与信息熵。想要计算互信息与信息熵有限要做的是 文本分词进行共性分析。在作者的原文中,有几个问题,为了便于说明,这里首先给出短语提取的原理。在文末在给出pyhanlp的调用代码。共性分析 互信息mi,左熵lr,右熵re,详细解释见下文信息论中的互信息 一般而言,信道中总是存在着噪声和干扰,信源发出消息x,通过信道后信宿只...转载 2019-01-04 09:19:51 · 1149 阅读 · 0 评论 -
python调用hanlp分词包手记
Hanlp作为一款重要的分词工具,本月初的时候看到大快搜索发布了hanlp的1.7版本,新增了文本聚类、流水线分词等功能。关于hanlp1.7版本的新功能,后面有使用的到时候在给大家分享。本篇分享一个在python里调用hanlp分词包的过程文章,供需要的朋友参考学习交流!以下为文章内容:1.在python下安装pyhanlpsudo pip install pyhanlp(...转载 2018-12-26 09:32:11 · 678 阅读 · 0 评论 -
HanLP分词命名实体提取详解
分享一篇大神的关于hanlp分词命名实体提取的经验文章,文章中分享的内容略有一段时间(使用的hanlp版本比较老),最新一版的hanlp已经出来了,也可以去看看新版的hanlp在这方面有何提升!文本挖掘是抽取有效、新颖、有用、可理解的、散布在文本文件中的有价值知识,并且利用这些知识更好地组织信息的过程。对于文本来说,由于语言组织形式各异,表达方式多样,文本里面提到的很多要素,如人名、...转载 2019-01-11 11:01:46 · 4406 阅读 · 0 评论 -
HanLP的自定义词典使用方式与注意事项介绍
【环境】python 2.7方法一:使用pyhanlp,具体方法如下:pip install pyhanlp # 安装pyhanlp进入python安装包路径,如/usr/lib/python2.7/site-packages/pyhanlp/static/将http://hanlp.properties.in改名为备份文件。 mv hanlp.properties....转载 2019-01-02 09:36:06 · 1680 阅读 · 0 评论 -
pyhanlp 中文词性标注与分词简介
pyhanlp实现的分词器有很多,同时pyhanlp获取hanlp中分词器也有两种方式第一种是直接从封装好的hanlp类中获取,这种获取方式一共可以获取五种分词器,而现在默认的就是第一种维特比分词器1.维特比 (viterbi):效率和效果的最佳平衡。也是最短路分词,HanLP最短路求解采用Viterbi算法2.双数组trie树 (dat):极速词典分词,千万字符每秒(可能无法获...转载 2019-01-07 10:03:46 · 1150 阅读 · 0 评论 -
自然语言处理工具python调用hanlp的方法步骤
Python调用hanlp的方法此前有分享过,本篇文章分享自“逍遥自在017”的博客,个别处有修改,阅读时请注意!1.首先安装jpype首先各种坑,jdk和python 版本位数必须一致,我用的是JPype1-py3 版本号0.5.5.2 、1.6jdk和Python3.5,win7 64位下亲测没问题。否则死翘翘,有可能虚拟机都无法启动:出错调试,原因已说;测试成功会有输出...转载 2019-07-17 09:22:29 · 417 阅读 · 0 评论