自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

adnb34g的博客

互联网从业者,技术大白,hadoop,dkhadoop

  • 博客(15)
  • 收藏
  • 关注

转载 Python中调用自然语言处理工具HanLP手记

HanLP方法封装类:1. # -*- coding:utf-8 -*-2. # Filename: main.py3.4.from jpype import *5. 5.startJVM(getDefaultJVMPath(), "-Djava.class.path=C:\hanlp\hanlp-1.3.2.jar;C:\hanlp", "-Xms1g", "-Xmx1g") # 启...

2018-10-31 10:03:39 580

原创 HanLP中的人名识别分析详解

在看源码之前,先看几遍论文《基于角色标注的中国人名自动识别研究》关于命名识别的一些问题,可参考下列一些issue:u名字识别的问题 #387 u机构名识别错误 u关于层叠HMM中文实体识别的过程HanLP参考博客:词性标注层叠HMM-Viterbi角色标注模型下的机构名识别分词在HMM与分词、词性标注、命名实体识别中说:分词:给定一个字的序列,找出最可能的标签序列...

2018-10-29 09:39:50 904

原创 自然语言处理中的分词问题总结

众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。把中文的汉字序列切分成有意义的词,就是中文分词,有些人也称为切词。本文转载自明略研究院的技术经理牟小峰老师讲授的语言处理中的分词问题。如何界定分词  中文分词指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程;在英文中,单词之间...

2018-10-26 10:51:23 1474 1

原创 Hanlp实战HMM-Viterbi角色标注中国人名识别

这几天写完了人名识别模块,与分词放到一起形成了两层隐马模型。虽然在算法或模型上没有什么新意,但是胜在训练语料比较新,对质量把关比较严,实测效果很满意。比如这句真实的新闻“签约仪式前,秦光荣、李纪恒、仇和等一同会见了参加签约的企业家。”,分词结果:[签约/v, 仪式/n, 前/f, ,/w, 秦光荣/nr, 、/w, 李纪恒/nr, 、/w, 仇和/nr, 等/u, 一同/d, 会见/v, 了/ul...

2018-10-22 09:44:50 595

原创 Hanlp中使用纯JAVA实现CRF分词

与基于隐马尔可夫模型的最短路径分词、N-最短路径分词相比,基于条件随机场(CRF)的分词对未登录词有更好的支持。本文(HanLP)使用纯Java实现CRF模型的读取与维特比后向解码,内部特征函数采用 双数组Trie树(DoubleArrayTrie)储存,得到了一个高性能的中文分词器。开源项目本文代码已集成到HanLP中开源:http://hanlp.com/CRF简介CRF是序列...

2018-10-19 09:11:52 1018

原创 依存句法分析器的简单实现

生成式句法分析指的是,生成一系列依存句法树,从它们中用特定算法挑出概率最大那一棵。句法分析中,生成模型的构建主要使用三类信息:词性信息、词汇信息和结构信息。前二类很好理解,而结构信息需要特殊语法标记,不做考虑。本文主要利用了词汇+词性生成联合概率模型,使用最大生成树Prim算法搜索最终结果,得到了一个简单的汉语依存句法分析器。开源项目本文代码已集成到HanLP中开源:http://ha...

2018-10-17 10:07:21 3943

hadoop框架结构的说明介绍

 近年,随着互联网的发展特别是移动互联网的发展,数据的增长呈现出一种爆炸式的成长势头。单是谷歌的爬虫程序每天下载的网页超过1亿个(2000年数据,)数据的爆炸式增长直接推动了海量数据处理技术的发展。谷歌公司提出的大表、分布式文件系统和分布式计算的三大技术构架,解决了海量数据处理的问题。谷歌公司随即将设计思路开源,发表了具有划时代意义的三篇论文,很快根据谷歌设计思路的开源框架就出现了,就是如今...

2018-10-15 15:50:53 377

原创 MapReduce实现与自定义词典文件基于hanLP的中文分词详解

 前言:文本分类任务的第1步,就是对语料进行分词。在单机模式下,可以选择python jieba分词,使用起来较方便。但是如果希望在Hadoop集群上通过mapreduce程序来进行分词,则hanLP更加胜任。一、使用介绍hanLP是一个用java语言开发的分词工具, 官网是 http://hanlp.com/ 。 hanLP创建者提供了两种使用方式,一种是portable简化版...

2018-10-15 13:42:58 196

原创 MapReduce实现与自定义词典文件基于hanLP的中文分词详解

前言:文本分类任务的第1步,就是对语料进行分词。在单机模式下,可以选择python jieba分词,使用起来较方便。但是如果希望在Hadoop集群上通过mapreduce程序来进行分词,则hanLP更加胜任。一、使用介绍hanLP是一个用java语言开发的分词工具, 官网是 http://hanlp.com/ 。 hanLP创建者提供了两种使用方式,一种是portable简化版本,内置...

2018-10-15 09:50:18 707 1

转载 Hanlp等七种优秀的开源中文分词库推荐

中文分词是中文文本处理的基础步骤,也是中文人机自然语言交互的基础模块。由于中文句子中没有词的界限,因此在进行中文自然语言处理时,通常需要先进行分词。纵观整个开源领域,陆陆续续做中文分词的也有不少,不过目前仍在维护的且质量较高的并不多。下面整理了一些个人认为比较优秀的中文分词库,以供大家参考使用。1、HanLP —— 汉语言处理包HanLP是一系列模型与算法组成的NLP工具包,由大快搜索...

2018-10-12 09:36:23 1959

原创 机器学习的趋势和人工智能的未来

机器学习的趋势和人工智能的未来每家公司现在是一个数据公司,在一定范围能够使用机器学习在云中部署智能应用程序,这归功于三个机器学习的趋势:数据飞轮,算法经济,和智能云托管。 有了机器学习模型,企业现在可以快速分析大型,复杂的数据,并提供更快,更准确的见解,没有部署和维护机器学习系统的高成本。“当今建立的每一个成功的新应用程序将是一个智能应用程序,智能构建块和学习服务将是应用程序背...

2018-10-10 14:12:08 316

原创 HanLP代码与词典分离方案与流程

HanLP代码与词典分离方案与流程之前在spark环境中一直用的是portable版本,词条数量不是很够,且有心想把jieba,swcs词典加进来,其他像ik,ansi-seg等分词词典由于没有词性并没有加进来. 本次修改主要是采用jar包方包将词典目录data与hanlp.properties合成一个data.jar文件.1. pom.xml 过滤资源文件的配置     ...

2018-10-10 10:29:47 235

原创 HanLP代码与词典分离方案与流程

之前在spark环境中一直用的是portable版本,词条数量不是很够,且有心想把jieba,swcs词典加进来,其他像ik,ansi-seg等分词词典由于没有词性并没有加进来. 本次修改主要是采用jar包方包将词典目录data与hanlp.properties合成一个data.jar文件.1. pom.xml 过滤资源文件的配置      <plugin>    ...

2018-10-10 08:48:27 659

原创 Elasticsearch集成HanLP分词器

Elasticsearch集成HanLP分词器1、通过git下载分词器代码。连接如下:https://gitee.com/hualongdata/hanlp-exthanlp官网如下:http://hanlp.linrunsoft.com/2、下载gradle,如果本机有,就可以略过此步骤。通过gradle官方网站下载,解压,配置环境即可。官方安装配置说明:https://...

2018-10-09 08:59:58 214

转载 Elasticsearch集成HanLP分词器

 1、通过git下载分词器代码。连接如下:https://gitee.com/hualongdata/hanlp-exthanlp官网如下:http://hanlp.linrunsoft.com/2、下载gradle,如果本机有,就可以略过此步骤。通过gradle官方网站下载,解压,配置环境即可。官方安装配置说明:https://gradle.org/install/3、按...

2018-10-08 14:05:40 493

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除