2018年11月_ouprince

转载中文 NLP（7） -- CTB语义组块说明

CTB 语义组块类别表标注英文说明中文说明 ADJP Adjective phrase 形容词短语 ADVP Adverbial phrase headed by AD 由副词开头的副词短语，状语 CLP Classifier phrase 量词短语 CP Clause headed by C 由补语引导的补语从句...

2018-11-30 14:49:10 1969

转载中文 NLP（6）-- stanford 训练词性标注模型

在第一节发布的样本中，修改类StanfordPOSTagger 如下，增加训练模型文件方法：# 词性标注class StanfordPOSTagger(StanfordCoreNLP): ... 以上代码略，增加如下方法 # 生成训练配置文件命令 def __buildprop(self): self.propline = 'java -mx1...

2018-11-30 10:44:24 2253

转载中文 NLP（5） -- 宾州树《汉语词性标注规范》

词性标记英文名称中文名称例子 AD adverbs 副词 “还” AS Aspect marker 体标记了，着，过 BA in ba-const 把/将把，将 CC Coordinating conjunction 并列连词 “和”，“与”，“或”，“或者” CD Car...

2018-11-29 15:34:41 1666

转载中文 NLP（4） -- 四大概率算法模型之最大熵模型 ME 及其 GIS 实现

之前分别介绍了朴素贝叶斯模型和隐马尔科夫模型，接下来我们解析第三大概率模型 -- 最大熵模型。说实在的，我这里不愿去写一大堆数学公式出来，即敲的累看的也累。首先介绍下数学思想：在满足一些客观真实（通过训练数据）的约束下，这样的概率模型的子集中，我们选取最大信息熵的那个模型。我们只说下CIS 算法的最后迭代收敛公式：类似梯度下降原理，不断的使得模型最终的效果满足训练数据的经验分布的一...

2018-11-28 15:35:42 972

转载中文 NLP（3） -- 四大概率算法模型之隐马尔科夫模型 HMM 和维特比算法 Viterbi

之前说过，基于NLP处理的算法思想目前主要有两大流派：统计论流派和深度学习流派。而在统计论中，常用的 4 大概率模型分别是朴素贝叶斯模型，隐马尔科夫模型，最大熵模型和条件随机场模型。对于朴素贝叶斯模型，前面已经多次打过交道，原理也相对简单。这里解析第二大模型 -- 隐马尔科夫模型。我要说明的是，任何理论，都是以基本数学原理为思想，但是每个人的想法不同，解析的角度不同，求解的思路不同，所以我的...

2018-11-27 12:21:31 1010

转载中文 NLP （2） -- ICTCLAS分词

随着白话文的兴起，构成中文的最小独立单位由字转入词。因此分词是中文处理的第一步，没有这一步中文处理也就无法再进行下去。中文分词有三大流派：1.机械式分词法：将文档中的字符串与词典中的词条逐一匹配，如果命中，则匹配成功。2.基于语法和规则：主要是为了解决分词中的第一大难题：歧义切分。因此在分词的基础上同时进行句法，语义分析，利用句法和语义信息进行词性标注，已解决分词歧义现象。3.统计...

2018-11-23 16:01:33 767

转载中文NLP（1） -- 开源工具 ltp 和 stanford

完整的代码和模型文件可在我的GitHub：（代码是 linux 版本，windows 上运行只需要简单调整）https://github.com/ouprince/pyltp-stanford-nlpLTP 训练套件:https://ltp.readthedocs.io/zh_CN/latest/train.htmlpyltp 使用:https://blog.csdn.net/meb...

2018-11-20 16:59:17 1273

转载自编码网络的使用方法 -- 栈式自编码神经网络 SA

栈式自编码神经网络（Stacked Autoencoder, SA）是对自编码网络的一种使用方法。而前面说的自编码（包括卷积，变分，条件变分都只是一种自编码结构），而这里是应用。 SA 是一个由多层训练好的自编码器组成的神经网络。由于网络中的每一层都是单独训练而来，相当于都初始化了一个合理的数值。所以，这样的网络更容易训练，并且有更快的收敛性及更高的准确度。栈式自编码常常用于预训练（初始化）深度网...

2018-11-07 15:30:31 2240 1

转载采用自编码网络（AE）实现无监督学习

（1）最简单的自编码网络 -- 样本重构功能自编码网络是输入等于输出的网络，最基本的模型可以视为三层的神经网络，即输入层，隐藏层，输出层。也就看成压缩和解压的过程。编码就是压缩的过程，解码就是解压的过程。一般是一个对称的网络。基本实现代码（MNIST 数据集图片的压缩和解压）将 784 维数据压缩成 128 维，实现输入数据的低维重构问题。#-*- coding:utf-8 -*-...

2018-11-07 11:05:18 3605 5

转载基于rnn 的基本seq2seq 任务

seq2seq 函数说明处理 seq2seq 任务序列到序列问题编码 - 解码框架: Encoder - Decoder 先使用编码器将输入编码映射到语义空间，得到一个固定维数的向量，这个向量就表示输入的语义；然后再使用解码器将这个向量解码，获得所需要的输出。注意：基本的 seq2seq 是Encoder 生成的最后一个时刻的 c 参与到Decoder 的初始时刻在 seq2se...

2018-11-02 12:28:08 1018

ouprince