NLP
mantchs
世界如此复杂,我们将如何定义!
展开
-
BERT实现QA中的问句语义相似度计算
有一个这样的场景,QA对话系统,希望能够在问答库中找到与用户问题相似的句子对,然后把答案返回给用户。这篇就是要解决这个问题的。原创 2020-03-14 21:47:25 · 4316 阅读 · 2 评论 -
13.深度学习(词嵌入)与自然语言处理--HanLP实现
**深度学习**(Deep Leaming, DL )属于表示学习( Representation Learning )的范畴,指的是利用具有一定“深度”的模型来自动学习事物的向量表示(vectorial rpresenation)的一种学习范式。目前,深度学习所采用的模型主要是层数在一层以上的神经网络。原创 2020-02-19 22:45:55 · 3084 阅读 · 0 评论 -
《自然语言处理入门》12.依存句法分析--提取用户评论
文章目录12. 依存句法分析12.1 短语结构树12.2 依存句法树12.3 依存句法分析12.4 基于转移的依存句法分析12.5 依存句法分析 API12.6 案例: 基于依存句法分析的意见抽取12.7 GitHub笔记转载于GitHub项目:https://github.com/NLP-LOVE/Introduction-NLP12. 依存句法分析语法分析(syntactic parsi...原创 2020-02-18 20:07:13 · 3313 阅读 · 0 评论 -
11. HanLP实现朴素贝叶斯/SVM--文本分类
**文本分类**( text classification),又称**文档分类**( document classification),指的是将一个文档归类到一个或多个类别中的自然语言处理任务。文本分类的应用场景非常广泛,涵盖垃圾邮件过滤、垃圾评论过滤、自动标签、情感分析等任何需要自动归档文本的场合。原创 2020-02-13 18:38:28 · 3206 阅读 · 1 评论 -
10.HanLP实现k均值--文本聚类
**聚类**(cluster analysis )指的是将给定对象的集合划分为不同子集的过程,目标是使得每个子集内部的元素尽量相似,不同子集间的元素尽量不相似。这些子集又被称为**簇**(cluster),一般没有交集。原创 2020-02-13 18:36:03 · 2153 阅读 · 1 评论 -
HanLP《自然语言处理入门》笔记--9.关键词、关键句和短语提取
信息抽取是一个宽泛的概念,指的是从非结构化文本中提取结构化信息的一类技术。这类技术依然分为基于规则的正则匹配、有监督学习和无监督学习等各种实现方法。我们将使用一些简单实用的无监督学习方法。由于不需要标注语料库,所以可以利用海量的非结构化文本。原创 2020-02-12 18:40:46 · 2635 阅读 · 1 评论 -
8.HanLP实现--命名实体识别
识别出句子中命名实体的边界与类别的任务称为**命名实体识别**。由于上述难点,命名实体识别也是一个统计为主、规则为辅的任务。 对于规则性较强的命名实体,比如网址、E-mail、IBSN、商品编号等,完全可以通过正则表达式处理,未匹配上的片段交给统计模型处理。原创 2020-02-12 18:37:28 · 4292 阅读 · 1 评论 -
7.、隐马尔可夫(HMM)/感知机/条件随机场(CRF)----词性标注
在语言学上,**词性**(Par-Of-Speech, Pos )指的是单词的语法分类,也称为词类。同一个类别的词语具有相似的语法性质,所有词性的集合称为词性标注集。不同的语料库采用了不同的词性标注集,一般都含有形容词、动词、名词等常见词性。下图就是HanLP输出的一个含有词性的结构化句子。原创 2020-02-11 12:53:17 · 1558 阅读 · 1 评论 -
HanLP《自然语言处理入门》笔记--6.条件随机场与序列标注
本章介绍一种新的序列标注模型条件随机场。这种模型与感知机同属结构化学习大家族,但性能比感知机还要强大。为了厘清该模型的来龙去脉,我们先对机器学习模型做番柿理。然后结合代码介绍条件随机场理论,探究它与结构化感知机的异同。原创 2020-02-10 18:39:57 · 937 阅读 · 0 评论 -
HanLP《自然语言处理入门》笔记--5.感知机模型与序列标注
本章将深人讲解感知机算法的原理,以及在分类和序列标注上的应用。在序列标注应用部分,我们将实现基于感知机的中文分词器。由于感知机序列标注基于分类,并且分类问题更简单,所以我们先学习分类问题。原创 2020-02-09 12:49:03 · 1587 阅读 · 0 评论 -
详解隐马尔可夫模型(HMM)中的维特比算法
具体说来,只要将每个汉字组词时所处的位置(首尾等)作为标签,则中文分词就转化为给定汉字序列找出标签序列的问题。一般而言,由字构词是**序列标注模型**的一种应用。 在所有“序列标注”模型中,隐马尔可夫模型是最基础的一种。原创 2020-02-08 20:25:44 · 3569 阅读 · 1 评论 -
HanLP《自然语言处理入门》笔记--3.二元语法与中文分词
我们人类确知道第二种更加合理,只因为我们从小到大接触的都是第二种分词,出现的次数多,所以我们判定第二种是正确地选择。这就是利用了**统计自然语言处理**。统计自然语言处理的核心话题之一,就是如何利用统计手法对语言建模,这一章讲的就是二元语法的统计语言模型。原创 2020-02-05 19:57:24 · 2129 阅读 · 0 评论 -
HanLP《自然语言处理入门》笔记--2.词典分词
文章目录2. 词典分词2.1 什么是词2.2 词典2.3 切分算法2.4 字典树2.5 基于字典树的其它算法2.6 HanLP的词典分词实现2.7 GitHub项目2. 词典分词中文分词:指的是将一段文本拆分为一系列单词的过程,这些单词顺序拼接后等于原文本。中文分词算法大致分为基于词典规则与基于机器学习这两大派。2.1 什么是词在基于词典的中文分词中,词的定义要现实得多:词典中的...原创 2020-02-05 13:53:49 · 1679 阅读 · 0 评论 -
HanLP《自然语言处理入门》笔记--1.新手上路
**自然语言处理**(Natural Language Processing,NLP)是一门融合了计算机科学、人工智能及语言学的交叉学科,它们的关系如下图所示。这门学科研究的是如何通过机器学习等技术,让计算机学会处理人类语言,乃至实现终极目标--理解人类语言或人工智能。原创 2020-02-04 21:33:11 · 10784 阅读 · 2 评论