自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(86)
  • 收藏
  • 关注

转载 HanLP封装为web services服务的过程介绍

前几天的召开的2019年大数据生态产业大会不知道大家关注到没有,看到消息是hanlp2.0版本发布了。不知道hanlp2.0版本又将带来哪些新的变化?准备近期看能够拿...

2019-08-09 09:43:46 123

转载 hanlp自然语言处理包的人名识别代码解析

HanLP发射矩阵词典nr.txt中收录单字姓氏393个。袁义达在《中国的三大姓氏是如何统计出来的》文献中指出:当代中国100个常见姓氏中,集中了全国人口的87%,根据这一数据我们只保留nr.txt中的100...

2019-08-02 09:42:24 238

转载 自然语言处理工具HanLP-基于层叠HMM地名识别

本篇接上一篇内容《HanLP-基于HMM-Viterbi的人名识别原理介绍》介绍一下层叠隐马的原理。首先说一下上一篇介绍的人名识...

2019-07-26 09:28:23 230

转载 HanLP-基于HMM-Viterbi的人名识别原理介绍

Hanlp自然语言处理包中的基于HMM-Viterbi处理人名识别的内容大概在年初的有分享过这类的文章,时间稍微久了一点,有点忘记了。看了 baiziyu 分享的这篇比我之前分享的要简单明了的多。下面就把文章...

2019-07-24 09:57:39 188

转载 HanLP-地名识别调试方法

HanLP收词特别是实体比较多,因此特别容易造成误识别。下边举几个地名误识别的例子,需要指出的是,后边的机构名识别也以地名识别为基础,因此,如果地名识别不准确,也会导致机构名识别...

2019-07-19 10:12:08 161

转载 Spring MVCD框架中调用HanLP分词的方法

项目简要:关于java web的一个项目,用的Spring MVCd 框架。鉴于参与此次项目的人中并不是所人都做的Spring,为了能够提高效率,建议大家是先抛开SPring来写自己负责的...

2019-07-10 10:14:19 99

转载 java分词工具hanlp介绍

前几天(6月28日),在第23届中国国际软件博览会上,hanlp这款自然语言处理工具荣获了“2019年第二十三届中国国际软件博览会优秀产品”。...

2019-07-03 10:35:12 112

转载 hanlp 加载远程词库示例

说明·目前的实现方式是以远程词库的内容重新构建CustomDictionary.trie,demo主要是为了实现同步远程词库,对性能暂不作考虑,对性能要求要以C...

2019-04-26 15:05:54 98

转载 HanLP 自然语言处理 for nodejs

·支持中文分词(N-最短路分词、CRF分词、索引分词、用户自定义词典、词性标注),命名实体识别(中国人名、音译人名、日本人名、地名、实体机构名识别),关键词提取,自动摘要,短语提取,拼...

2019-04-24 10:44:52 104

转载 HanLP Analysis for Elasticsearch

基于 HanLP 的 Elasticsearch 中文分词插件,核心功能:兼容...

2019-04-22 13:09:56 115

转载 HanLP Android 示例

portable版portable版零配置,仅提供中文分词、简繁拼音、同义词等功能。只需在build.gradle中加入依赖:...

2019-04-17 10:30:35 80

转载 基于结构化感知机的词性标注与命名实体识别框架

上周就关于《结构化感知机标注框架的内容》已经分享了一篇《分词工具Hanlp基于感知机的中文分词框架》,本篇接上一篇内容,继续分享词性标注与命名实体识别框架的内容。...

2019-04-08 14:04:02 185

转载 分词工具Hanlp基于感知机的中文分词框架

结构化感知机标注框架是一套利用感知机做序列标注任务,并且应用到中文分词、词性标注与命名实体识别这三个问题的完整在线学习框架,该框架利用1个算法解决3个问题,时自治同意的系统,同时三个任务顺序渐进,构成流水线式...

2019-04-03 10:28:30 244

转载 Hanlp1.7版本的新增功能一览

Hanlp1.7版本在去年下半年的时候就随大快的DKH1.6版本同时发布了,截至目前1.7大版本也更新到了1.7.1了。本篇分别就1.7.0和1.7.1中新增的功能做一个简单的汇总介绍。...

2019-03-22 09:23:29 74

转载 Hanlp自然语言处理中的词典格式说明

使用过hanlp的都知道hanlp中有许多词典,它们的格式都是非常相似的,形式都是文本文档,随时可以修改。本篇文章详细介绍了hanlp中的词典格式,以满足用户自定义的需要。...

2019-03-15 10:48:57 149

转载 如何编译运行HanLP自然语言处理包

master分支对于master分支,编译方法如下:git clone https://githu...

2019-03-06 11:31:03 148

转载 pyhanlp文本分类与情感分析

语料库本文语料库特指文本分类语料库,对应IDataSet接口。而文本分类语料库包含两个概念:文档和类目。一个文档只属于一个类目,一个类目可能含有多个文档...

2019-02-20 14:23:02 117

转载 Hanlp分词之CRF中文词法分析详解

这是另一套基于CRF的词法分析系统,类似感知机词法分析器,提供了完善的训练与分析接口。CRF的效果比感知机稍好一些,然而训练速度较慢,也不支持在线学习。...

2019-02-18 14:40:02 507

转载 Pyhanlp自然语言处理中的新词识别

新词发现本“新词发现”模块基于信息熵和互信息两种算法,可以在无语料的情况下提取一段长文本中的词语,并支持过滤掉系统中已存在的“旧词”,得到新词列表。...

2019-02-15 14:56:04 285

转载 中文自然语言处理工具HanLP源码包的下载使用记录

这篇文章主要分享的是hanlp自然语言处理源码的下载,数据集的下载,以及将让源代码中的demo能够跑通。Hanlp安装包的下载以及安装其实之前就已经有过分享了。本篇文章主要还是备忘之用,同...

2019-02-15 09:43:09 118

转载 中文自然语言处理工具hanlp隐马角色标注详解

本文旨在介绍如何利用HanLP训练分词模型,包括语料格式、语料预处理、训练接口、输出格式等。 目前HanLP内置的训练接口是针对一阶HMM-NGram设计的,另外附带了通用的...

2019-02-13 14:50:29 98

转载 自然语言处理工具python调用hanlp中文实体识别

Hanlp作为一款重要的中文分词工具,在GitHub的用户量已经非常之高,应该可以看得出来大家对于hanlp这款分词工具还是很认可的。本篇继续分享一篇关于hanlp的使用实例即Python调用hanlp进行中...

2019-02-13 09:50:00 103

转载 hadoop项目开发案例举例

大数据Hadoop应用开发技术正可谓如火如荼推进中,以为大数据已经不仅仅是局限在互联网领域,而是已经被上升到了国家战略的高度层面。大数据正在深刻影响和改变我们的日常生活和工作方式。...

2019-01-27 13:11:20 2746

转载 自然语言处理工具hanlp自定义词汇添加图解

过程分析1.添加新词需要确定无缓存文件,否则无法使用成功,因为词典会优先加载缓存文件2.再确认缓存文件不在时,打开本地词典按照格式添...

2019-01-27 09:55:48 111

转载 实用贴:hadoop系统下载安装教程

在前几篇的文章中分别就虚拟系统安装、LINUX系统安装以及hadoop运行服务器的设置等内容写了详细的操作教程,本篇分享的是hadoop的下载安装步骤。在此之前有必要做...

2019-01-25 14:30:13 69

转载 在Hanlp词典手动添加未登录词的方式介绍

在使用Hanlp词典进行分词的时候,会出现分词不准的情况,原因是内置词典中并没有收录当前这个词,也就是我们所说的未登录词,只要把这个词加入到内置词典中就可以解决类似问题,如何操作呢,下面我们来看一...

2019-01-25 09:49:40 63

转载 超详细hadoop集群服务器安装配置教程

虚拟机以及Linux系统安装在之前的两篇分享中已经详细的介绍了方法,并且每一步的都配图了。如果有朋友还是看不懂,那我也爱莫能助了。本篇主要就hadoop服务器操作系统配置进行详细说明,hadoop安装会在下一...

2019-01-23 13:36:59 167

转载 DKHhadoop集群添加节点管理功能的操作步骤

Hadoop作为搭建大数据处理平台的重要“基石”,关于它的分析和讲解的文章已经有很多了。Hadoop本身是一分布式的系统,因此在安装的时候,需要多...

2019-01-16 15:32:20 75

转载 DKHadoop大数据可视化平台监控功能深度解析

在上一篇的文章中已经明确说过DKM作为大快发行版DKhadoop的管理平台,它的四大功能分别是:管理功能,监控功能,诊断功能和集成功能。管理功能已经给大家列举了一些做了说明,今天就DKM平台的监控功能再给大家...

2019-01-14 14:56:32 190

转载 Hadoop新手篇:hadoop入门基础教程

Hadoop新手篇:hadoop入门基础教程关于hadoop的分享此前一直都是零零散散的想到什么就写什么,整体写的比较乱吧。最近可能还算好的吧,毕竟花了两周的时间详细的写完的了ha...

2019-01-09 15:10:24 111

转载 超详细Dkhadoop虚拟机图文安装步骤

前两天看到有人留言问在什么情况下需要部署hadoop,我给的回答也很简单,就是在需要处理海量数据的时候才需要考虑部署hadoop。关于这个问题在很早之前的一篇分享文档也有说到这个问题,数据...

2019-01-07 14:50:35 105

转载 hadoop集群管理系统搭建规划说明

Hadoop分布式集群环境搭建是每个入门级新手都非常头疼的事情,因为你可能花费了很久的时间在搭建运行环境,最终却不知道什么原因无法创建成功。但对新手来说,运行环境搭建不成功的概率还蛮高的。...

2019-01-04 14:01:09 88

转载 NLP汉语自然语言处理入门基础知识介绍

自然语言处理定义:自然语言处理是一门计算机科学、人工智能以及语言学的交叉学科。虽然语言只是人工智能的一部分(人工智能还包括计算机视觉等),但它是非常...

2019-01-04 13:25:57 179

转载 大数据hadoop入门之hadoop家族产品详解

大数据hadoop入门之hadoop家族产品详解大数据这个词也许几年前你听着还会觉得陌生,但我相信你现在听到h...

2018-12-26 14:49:58 95

转载 python调用hanlp分词包手记

python调用hanlp分词包手记Hanlp作为一款重要的分词工具,本月初的时候看到大快搜索发布了hanlp的1.7版本,新增了文本聚类、流水线分词等功能。...

2018-12-26 10:57:21 94

转载 大快搜索城市运河大数据政务管理平台案例解读

大数据在zhengwu当中的应用对于提高问题解决的效率可谓大有帮助,但zhengwu大数据平台的应用开发远不止提高问题解决效率这么简单。当然,作为大数据平台应用的开发者来说,我们要做的是还是从底层的技术层...

2018-12-24 11:00:11 74

转载 SQL与NoSQL数据库入门基础知识详解

这几年的大数据热潮带动了一激活了一大批hadoop学习爱好者。有自学hadoop的,有报名培训班学习的。所有接触过hadoop的人都知道,单独搭建hadoop里每个组建都需要运行环境、修改配置文件...

2018-12-19 13:32:58 79

转载 DKhadoop安装配置步骤教程与常见问题解决

上周分别就DKHadoop的安装准备工作以及服务器操作系统配置写了两篇分享的文章,这是个人第一次尝试写一个系统性的分享文章,必然会有很多疏漏的地方,还望见谅吧。今天分享的是DKHadoop安装以及...

2018-12-17 14:37:53 65

转载 在Python中调用Java扩展包HanLP测试记录

最近在研究中文分词及自然语言相关的内容,关注到JAVA环境下的HanLP,HanLP是一个致力于向生产环境普及NLP技术的开源Java工具包,支持中文分词(N-最短路分词、CRF分词、索引分词、用...

2018-12-12 15:48:12 90

转载 DKhadoop环境安装配置步骤详解

在上一篇的分享文章中我是给大家分享了运行部署hadoop的一些安装准备工作,这篇接上一篇继续为大家分享一些个人的学习经验总结。我学习用的是大快发行版DKHadoop,所以所有的经验分享都是以D...

2018-12-07 13:34:37 70

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除