自然语言处理
文章平均质量分 81
adnb34g
这个作者很懒,什么都没留下…
展开
-
NLP「自然语言处理技术」
NLP是什么 在计算机领域, NLP(Natural Language Processing),也就是人们常说的「自然语言处理」,就是研究如何让计算机读懂人类语言。这包括,既要能让计算机理解自然语言文本的意义,也能以自然语言文本来表达给定的深层的意图、思想等。所以,这项技术往往体现了人工智能的最高任务与境界,也就是说,只有当计算机具备了理解自然语言的能力时,机器才算实现了真正的智能。但是,...翻译 2018-03-22 17:27:44 · 825 阅读 · 0 评论 -
GitHub十周岁HanLP自然语言处理包用户量超越CoreNLP
在本周,GitHub终于度过了属于它自己的十周岁生日。这个在2008年由3个来自旧金山的年轻人创建的基于Git的代码托管网站,先后超越了元老级的SourceForge和背景强大的Google Code,成为了全世界范围内最受欢迎的代码托管网站。 “十年前的今天,GitHub 正式上线。最一开始,我们只有一个特别简单的目标:链接所有的开发者,让他们用Git更轻松地进行项目协作。”联合创始人Chris...转载 2018-04-17 13:55:33 · 1175 阅读 · 0 评论 -
自然语言处理技术之HanLP介绍
这段时间一直在接触学习hadoop方面的知识,所以说对自然语言处理技术也是做了一些了解。网络上关于自然语言处理技术的分享文章很多,今天就给大家分享一下HanLP方面的内容。自然语言处理技术其实是所有与自然语言的计算机处理相关联的技术的统称,自然语言处理技术应用的目的是为了能够让计算机理解和接收我们用自然语言输入的指令,实现从将我们人类的语言翻译成计算机能够理解的并且不会产生歧义的一种语言。接合目前...原创 2018-04-12 14:54:17 · 3516 阅读 · 0 评论 -
hanlp中文自然语言处理分词方法介绍
自然语言处理在大数据以及近年来大火的人工智能方面都有着非同寻常的意义。那么,什么是自然语言处理呢?在没有接触到大数据这方面的时候,也只是以前在学习计算机方面知识时听说过自然语言处理。书本上对于自然语言处理的定义或者是描述太多专业化。换一个通俗的说法,自然语言处理就是把我们人类的语言通过一些方式或者技术翻译成机器可以读懂的语言。人类的语言太多,计算机技术起源于外国,所以一直以来自然语言处理基本都是围...翻译 2018-04-27 10:20:54 · 14900 阅读 · 3 评论 -
中文自然语言处理入门之Hanlp介绍
自然语言处理定义:自然语言处理是一门计算机科学、人工智能以及语言学的交叉学科。虽然语言只是人工智能的一部分(人工智能还包括计算机视觉等),但它是非常独特的一部分。这个星球上有许多生物拥有超过人类的视觉系统,但只有人类才拥有这么高级的语言。自然语言处理的目标是让计算机处理或说“理解”自然语言,以完成有意义的任务,比如订机票购物或QA等。完全理解和表达语言是极其困难的,完美的语言理解等效于实现...原创 2018-07-24 11:17:43 · 4151 阅读 · 0 评论 -
Hanlp自然语言处理工具的使用演练
Hanlp是由一系列模型与算法组成的工具包,目标是普及自然语言处理在生产环境中的应用。Hanlp具备功能完善、性能高效、架构清洗、语料时新、可自定义的特点;提供词法分析(中文分词、磁性标注、命名实体识别)、句法分析、文本分类和情感分析等功能。本篇将用户输入的语句根据词库进行分词、关键词提取、摘要提取、词库维护。 工具类名称:DKNLPBase 1、标准分词方法签名:Li...原创 2018-09-19 10:51:36 · 494 阅读 · 0 评论 -
全文检索Solr集成HanLP中文分词
以前发布过HanLP的Lucene插件,后来很多人跟我说其实Solr更流行(反正我是觉得既然Solr是Lucene的子项目,那么稍微改改配置就能支持Solr),于是就抽空做了个Solr插件出来,开源在Github上,欢迎改进。HanLP中文分词solr插件支持Solr5.x,兼容Lucene5.x。 快速上手1、将hanlp-portable.jar和hanlp-solr-pl...转载 2018-09-26 14:55:34 · 842 阅读 · 0 评论 -
Hanlp等七种优秀的开源中文分词库推荐
中文分词是中文文本处理的基础步骤,也是中文人机自然语言交互的基础模块。由于中文句子中没有词的界限,因此在进行中文自然语言处理时,通常需要先进行分词。纵观整个开源领域,陆陆续续做中文分词的也有不少,不过目前仍在维护的且质量较高的并不多。下面整理了一些个人认为比较优秀的中文分词库,以供大家参考使用。1、HanLP —— 汉语言处理包HanLP是一系列模型与算法组成的NLP工具包,由大快搜索...转载 2018-10-12 09:36:23 · 1957 阅读 · 0 评论 -
hanlp自然语言处理包的基本使用--python
hanlp拥有:中文分词、命名实体识别、摘要关键字、依存句法分析、简繁拼音转换、智能推荐。这里主要介绍一下hanlp的中文分词、命名实体识别、依存句法分析,这里就不介绍具体的hanlp的安装了,百度教程很多,可以看这里:http://hanlp.com/ 里面也有相关的一些介绍。我以前还使用过jieba分词和LTP,综合来说,LTP是做的相对要好一点,特别是中文处理这一块,但是它的最大缺点...转载 2018-09-28 09:26:04 · 3472 阅读 · 0 评论 -
Elasticsearch集成HanLP分词器
1、通过git下载分词器代码。连接如下:https://gitee.com/hualongdata/hanlp-exthanlp官网如下:http://hanlp.linrunsoft.com/2、下载gradle,如果本机有,就可以略过此步骤。通过gradle官方网站下载,解压,配置环境即可。官方安装配置说明:https://gradle.org/install/3、按...转载 2018-10-08 14:05:40 · 489 阅读 · 0 评论 -
MapReduce实现与自定义词典文件基于hanLP的中文分词详解
前言:文本分类任务的第1步,就是对语料进行分词。在单机模式下,可以选择python jieba分词,使用起来较方便。但是如果希望在Hadoop集群上通过mapreduce程序来进行分词,则hanLP更加胜任。一、使用介绍hanLP是一个用java语言开发的分词工具, 官网是 http://hanlp.com/ 。 hanLP创建者提供了两种使用方式,一种是portable简化版本,内置...原创 2018-10-15 09:50:18 · 706 阅读 · 1 评论 -
菜鸟如何使用hanlp做分词的过程记录
最近在学习hanlp的内容,准备在节后看看有没有时间整理一波hanlp分享下,应该还是会像之前分享DKHadoop一样的方式吧。把整个学习的过程中截图在配文字的方式搞一下。这两天也在看一些其他人分享的hanlp学习和使用分享的文章,后面看到的分享也会转载分享给大家。今天分享的这篇也是很早前别人分享的一篇如何用hanlp做分词的文章,新手入门级的可以看看!boss给了个做分词的任务,最开...转载 2018-09-30 09:50:38 · 5100 阅读 · 2 评论 -
HanLP代码与词典分离方案与流程
之前在spark环境中一直用的是portable版本,词条数量不是很够,且有心想把jieba,swcs词典加进来,其他像ik,ansi-seg等分词词典由于没有词性并没有加进来. 本次修改主要是采用jar包方包将词典目录data与hanlp.properties合成一个data.jar文件.1. pom.xml 过滤资源文件的配置 <plugin> ...原创 2018-10-10 08:48:27 · 658 阅读 · 0 评论 -
Hanlp中使用纯JAVA实现CRF分词
与基于隐马尔可夫模型的最短路径分词、N-最短路径分词相比,基于条件随机场(CRF)的分词对未登录词有更好的支持。本文(HanLP)使用纯Java实现CRF模型的读取与维特比后向解码,内部特征函数采用 双数组Trie树(DoubleArrayTrie)储存,得到了一个高性能的中文分词器。开源项目本文代码已集成到HanLP中开源:http://hanlp.com/CRF简介CRF是序列...原创 2018-10-19 09:11:52 · 1016 阅读 · 0 评论 -
依存句法分析器的简单实现
生成式句法分析指的是,生成一系列依存句法树,从它们中用特定算法挑出概率最大那一棵。句法分析中,生成模型的构建主要使用三类信息:词性信息、词汇信息和结构信息。前二类很好理解,而结构信息需要特殊语法标记,不做考虑。本文主要利用了词汇+词性生成联合概率模型,使用最大生成树Prim算法搜索最终结果,得到了一个简单的汉语依存句法分析器。开源项目本文代码已集成到HanLP中开源:http://ha...原创 2018-10-17 10:07:21 · 3941 阅读 · 0 评论 -
Hanlp实战HMM-Viterbi角色标注中国人名识别
这几天写完了人名识别模块,与分词放到一起形成了两层隐马模型。虽然在算法或模型上没有什么新意,但是胜在训练语料比较新,对质量把关比较严,实测效果很满意。比如这句真实的新闻“签约仪式前,秦光荣、李纪恒、仇和等一同会见了参加签约的企业家。”,分词结果:[签约/v, 仪式/n, 前/f, ,/w, 秦光荣/nr, 、/w, 李纪恒/nr, 、/w, 仇和/nr, 等/u, 一同/d, 会见/v, 了/ul...原创 2018-10-22 09:44:50 · 594 阅读 · 0 评论 -
HanLP中的人名识别分析详解
在看源码之前,先看几遍论文《基于角色标注的中国人名自动识别研究》关于命名识别的一些问题,可参考下列一些issue:u名字识别的问题 #387 u机构名识别错误 u关于层叠HMM中文实体识别的过程HanLP参考博客:词性标注层叠HMM-Viterbi角色标注模型下的机构名识别分词在HMM与分词、词性标注、命名实体识别中说:分词:给定一个字的序列,找出最可能的标签序列...原创 2018-10-29 09:39:50 · 904 阅读 · 0 评论 -
自然语言处理中的分词问题总结
众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。把中文的汉字序列切分成有意义的词,就是中文分词,有些人也称为切词。本文转载自明略研究院的技术经理牟小峰老师讲授的语言处理中的分词问题。如何界定分词 中文分词指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程;在英文中,单词之间...原创 2018-10-26 10:51:23 · 1472 阅读 · 1 评论 -
Python中调用自然语言处理工具HanLP手记
HanLP方法封装类:1. # -*- coding:utf-8 -*-2. # Filename: main.py3.4.from jpype import *5. 5.startJVM(getDefaultJVMPath(), "-Djava.class.path=C:\hanlp\hanlp-1.3.2.jar;C:\hanlp", "-Xms1g", "-Xmx1g") # 启...转载 2018-10-31 10:03:39 · 580 阅读 · 0 评论 -
自然语言处理之:搭建基于HanLP的开发环境(转)
环境搭建比FNLP的简单,具体参考:https://github.com/hankcs/HanLP各个版本的下载:https://github.com/hankcs/HanLP/releases完毕后有一个报错:字符类型对应表加载失败:D:/eclipse_workspace/HanLPTest/HanLP/data/dictionary//other/CharType.dat.y...转载 2018-11-09 09:26:11 · 606 阅读 · 0 评论 -
HanLP用户自定义词典源码分析详解
1. 官方文档及参考链接关于词典问题Issue,首先参考:FAQ 自定义词典其实是基于规则的分词,它的用法参考这个issue 如果有些数量词、字母词需要分词,可参考:P2P和C2C这种词没有分出来,希望加到主词库 关于词性标注:可参考词性标注2. 源码解析分析 com.hankcs.demo包下的DemoCustomDictionary.java 基于自定义词典使用标准分词HanL...转载 2018-11-02 10:34:13 · 974 阅读 · 0 评论 -
hanlp源码解析之中文分词算法详解
词图词图指的是句子中所有词可能构成的图。如果一个词A的下一个词可能是B的话,那么A和B之间具有一条路径E(A,B)。一个词可能有多个后续,同时也可能有多个前驱,它们构成的图我称作词图。需要稀疏2维矩阵模型,以一个词的起始位置作为行,终止位置作为列,可以得到一个二维矩阵。例如:“他说的确实在理”这句话图词的存储方法:一种是的DynamicArray法,一种是快速offset法。Han...转载 2018-11-07 09:21:19 · 830 阅读 · 0 评论 -
HanLP 关键词提取算法分析详解
参考论文:《TextRank: Bringing Order into Texts》 TextRank算法提取关键词的Java实现 TextRank算法自动摘要的Java实现这篇文章中作者大概解释了一下TextRank公式1. 论文In this paper, we introduce the TextRank graphbased ranking model for graphs...转载 2018-11-05 09:22:46 · 2341 阅读 · 0 评论 -
Hanlp分词实例:Java实现TFIDF算法
算法介绍最近要做领域概念的提取,TFIDF作为一个很经典的算法可以作为其中的一步处理。关于TFIDF算法的介绍可以参考这篇博客http://www.ruanyifeng.com/blog/2013/03/tf-idf.html。计算公式比较简单,如下:预处理由于需要处理的候选词大约后3w+,并且语料文档数有1w+,直接挨个文本遍历的话很耗时,每个词处理时间都要一分钟以上。...转载 2018-11-14 09:19:11 · 1068 阅读 · 0 评论 -
Spark应用HanLP对中文语料进行文本挖掘--聚类详解教程
软件:IDEA2014、Maven、HanLP、JDK;用到的知识:HanLP、Spark TF-IDF、Spark kmeans、Spark mapPartition;用到的数据集:http://www.threedweb.cn/thread-1288-1-1.html(不需要下载,已经包含在工程里面);工程下载:https://github.com/fansy1990/hanlp-...转载 2018-11-12 09:50:41 · 684 阅读 · 0 评论 -
pyhanlp 停用词与用户自定义词典功能详解
hanlp的词典模式之前我们看了hanlp的词性标注,现在我们就要使用自定义词典与停用词功能了,首先关于HanLP的词性标注方式具体请看HanLP词性标注集。其核心词典形式如下:自定义词典自定义词典有多种添加模式,首先是展示的一个小例子,展示了词汇的动态增加与强行插入,删除等。更复杂的内容请参考后边的第二段代码。简单的例子from pyhanlp import *t...转载 2018-11-16 09:34:09 · 1444 阅读 · 0 评论 -
Spring Boot中对自然语言处理工具包hanlp的调用详解
概 述HanLP 是基于 Java开发的 NLP工具包,由一系列模型与算法组成,目标是普及自然语言处理在生产环境中的应用。而且 HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点,因此十分好上手,本文就结合 Spring Boot来将 HanLP用起来! 下载 HanLP数据和程序由于 HanLP库将数据与代码分离,因此我们需要分别下载所需数据和 jar包:...转载 2018-11-21 10:50:04 · 3285 阅读 · 4 评论 -
pyhanlp 文本聚类详细介绍
文本聚类文本聚类简单点的来说就是将文本视作一个样本,在其上面进行聚类操作。但是与我们机器学习中常用的聚类操作不同之处在于。我们的聚类对象不是直接的文本本身,而是文本提取出来的特征。因此如何提取特征因而是非常重要的一步。在HanLP中一共有三个文本聚类方法。前两种都基于词袋模式,第一个是最常见的聚类算法:k-means,但HanLP不光实现了k-means,还实现了速度更快效果更好的repe...转载 2018-11-23 08:52:04 · 1452 阅读 · 1 评论 -
目前常用的自然语言处理开源项目/开发包有哪些?
中文主要有:NLTK,FoolNLTK,HanLP(java版本),pyhanlp(python版本),Ansj,THULAC,结巴分词,FNLP,哈工大LTP,中科院ICTCLAS分词,GATE,SnowNLP,东北大学NiuTrans,NLPIR,;英文主要有:NLTK,Genism,TextBlob,Stanford NLP,Spacy。英文的开源NLP工具主要参见StackoverFl...转载 2018-11-26 09:49:52 · 840 阅读 · 1 评论 -
Hanlp在java中文分词中的使用介绍
项目结构 该项目中,.jar和data文件夹和.properties需要从官网/github下载,data文件夹下载项目配置修改hanlp.properties: 1 #/Test/src/hanlp.properties: 2 #本配置文件中的路径的根目录 3 #root=E:/SourceCode/eclipsePlace/Test ...转载 2018-11-30 10:12:06 · 5337 阅读 · 1 评论 -
hanlp中文智能分词自动识别文字提取实例
需求:客户给销售员自己的个人信息,销售帮助客户下单,此过程需要销售人员手动复制粘贴收获地址,电话,姓名等等,一个智能的分词系统可以让销售人员一键识别以上各种信息经过调研,找到了一下开源项目1、word 分词器2、ansj 分词器3、mmseg4j 分词器4、ik-analyzer 分词器5、jcseg 分词器6、fudannlp 分词器7、smartcn 分词器...转载 2018-11-30 10:13:37 · 2146 阅读 · 0 评论 -
自然语言处理怎么最快入门?
本文整理自知乎上的一个问答,分享给正在学习自然然语言处理的朋友们!一、自然语言处理是什么?自然语言处理说白了,就是让机器去帮助我们完成一些语言层面的事情,典型的比如:情感分析、文本摘要、自动问答等等。我们日常场景中比较常见到的类似Siri、微软小冰之类的,这些的基础都是自然语言处理,另外还有一些语音处理,这就暂且不表了。总之,你看到的机器与人利用语言交互,用机器模拟人脑阅读,对话,评论...转载 2018-11-28 09:25:21 · 213 阅读 · 0 评论 -
HanLP中人名识别分析详解
在看源码之前,先看几遍论文《基于角色标注的中国人名自动识别研究》关于命名识别的一些问题,可参考下列一些issue:·名字识别的问题 #387 ·机构名识别错误 ·关于层叠HMM中文实体识别的过程HanLP参考博客:词性标注层叠HMM-Viterbi角色标注模型下的机构名识别分词在HMM与分词、词性标注、命名实体识别中说:分词:给定一个字的序列,找出最可能的标签序列...转载 2018-12-05 09:25:52 · 458 阅读 · 0 评论 -
HanLP二元核心词典解析
本文分析:HanLP版本1.5.3中二元核心词典的存储与查找。当词典文件没有被缓存时,会从文本文件CoreNatureDictionary.ngram.txt中解析出来存储到TreeMap中,然后构造start和pair数组,并基于这两个数组实现词共现频率的二分查找。当已经有缓存bin文件时,那直接读取构建start和pair数组,速度超快。源码实现二元核心词典的加载二元核心词典在文件...转载 2018-12-03 09:34:21 · 393 阅读 · 1 评论 -
ubuntu下pycharm调用Hanlp实践分享
前几天看了大快的举办的大数据论坛峰会的现场直播,惊喜的是hanlp2.0版本发布。Hanlp2.0版本将会支持任意多的语种,感觉还是挺好的!不过更多关于hanlp2.0的信息,可能还需要过一段时间才能看到,只能等一下了!下面分享一篇大神的文章,是关于在ubuntu下使用pycharm调用hanlp的实验。以下为全文:首先点击File,选择Settings,在Project 下点击Pro...转载 2018-12-14 09:02:18 · 183 阅读 · 0 评论 -
配置Hanlp自然语言处理进阶
中文分词中文分词中有众多分词工具,如结巴、hanlp、盘古分词器、庖丁解牛分词等;其中庖丁解牛分词仅仅支持java,分词是HanLP最基础的功能,HanLP实现了许多种分词算法,每个分词器都支持特定的配置。接下来我将介绍如何配置Hanlp来开启自然语言处理之旅,每个工具包都是一个非常强大的算法集合,所以小编以后将花一些时间去看看里面源码如何。下载jar、property和data文件下...转载 2018-12-07 09:57:50 · 1460 阅读 · 0 评论 -
Hanlp在ubuntu中的使用方法介绍
HanLP的一个很大的好处是离线开源工具包,换而言之,它不仅提供免费的代码免费下载,而且将辛苦收集的词典也对外公开啦,此诚乃一大无私之举.我在安装的时候,主要参照这份博客: blog.csdn.net/article/details?id=50938796 不过该博客主要介绍的是windows如何使用hanlp,而ubuntu是linux的,所以会有所区别.下面我主要介绍的是在unbuntu的...转载 2018-12-10 09:42:54 · 183 阅读 · 0 评论 -
hanlp在Python环境中的安装失败后的解决方法
Hanlp是由一系列模型与算法组成的javag工具包,目标是普及自然语言处理再生环境中的应用。有很多人在安装hanlp的时候会遇到安装失败的情况,下面就是某大神的分享的在python环境中安装失败的解决方法,大家可以借鉴学习以下!由于要使用hanlp进行分词,而我们的环境是python环境所以得安装pyhanlp,但是安装过程总是出现这样的问题 看上去感觉是缺少了visu...转载 2018-12-19 09:14:03 · 1541 阅读 · 0 评论 -
python调用hanlp分词包手记
Hanlp作为一款重要的分词工具,本月初的时候看到大快搜索发布了hanlp的1.7版本,新增了文本聚类、流水线分词等功能。关于hanlp1.7版本的新功能,后面有使用的到时候在给大家分享。本篇分享一个在python里调用hanlp分词包的过程文章,供需要的朋友参考学习交流!以下为文章内容:1.在python下安装pyhanlpsudo pip install pyhanlp(...转载 2018-12-26 09:32:11 · 683 阅读 · 0 评论 -
中文自然语言处理工具HanLP源码包的下载使用记录
这篇文章主要分享的是hanlp自然语言处理源码的下载,数据集的下载,以及将让源代码中的demo能够跑通。Hanlp安装包的下载以及安装其实之前就已经有过分享了。本篇文章主要还是备忘之用,同时算是给新手朋友的一些参考吧!不过在此之前先推荐两本书给想要学习中文自然语言处理的朋友,分别是《NLP汉语自然语言处理原理与实战》,里面介绍了汉语自然语言处理的相关技术,还有一些源码的解读;另一本是《pyth...原创 2019-02-15 09:28:18 · 322 阅读 · 0 评论