ouprince

ouprince

项目实践 -- CRF实体识别

# -*- coding:utf-8 -*- from __future__ import division ''' 使用线性 CRF 实现实体识别的任务 使用 sklearn-crfsuite 中的 CRF ''' from itertools import chain #...

2019-02-01 14:30:19

阅读数 52

评论数 0

中文 NLP(11) -- stanfordNLP 生成文法之 PCFG 模型

在短语结构文法中,也就是转换生成语法,目前最成熟、精度最高的算法就是 PCFG 算法。 另一种基于依存句法理论的分析方法,最高效的是深度学习算法(Trainsition-Based LSTM) PCFG 即 Probabilistic CFG ,也就是基于概率的短语结构分析。也就是在 G = ...

2018-12-07 17:23:45

阅读数 105

评论数 0

中文 NLP (10) -- 句法解析之 转换生成语法 和 依存句法

多年来 NLP 领域最广泛的两种句法分析理论分别为 转换生成语法和依存句法。 转换生成语法 短语结构文法:形式化定义为 G = (X,V,S,R) 这样一个四元组。X 是词汇集合,称为终结符。V 是标注的集合,称为非终结符。S 属于 V ,称为文法开始符。R 是有序偶对(α,β)的集合,α 是...

2018-12-07 14:06:02

阅读数 178

评论数 0

中文 NLP(9) -- 实体识别

(1)实体识别 识别 人名,地名,组织机构,日期,时间,百分数,货币这七大实体。重点是人名,地名和组织机构的识别。属于未登录词识别的范畴。 人名特征:当今仍使用,活跃的中文姓氏大致有1000 多个,前 586 个姓占了 98.5%。其余姓氏不到 1.5%。名字用字分布较姓氏用字分布要平缓,分散...

2018-12-04 10:08:52

阅读数 147

评论数 0

中文 NLP(8) -- 使用 CRF++ 和 BIO 表示法训练模型

一般在训练 NLP 模型,比如分词,词性,组块标注等等时,采用 BIO 表示法,说明如下: B — 代表当前词是一个组块的开始 I — 代表当前词在一个组块中 O — 代表当前词不在任意组块中 。 如果要求更精确,可以增加两个符号: E — 代表组块结束 S — 代表当前词是一个组块,...

2018-12-02 14:54:37

阅读数 1409

评论数 0

中文 NLP(7) -- CTB语义组块说明

CTB 语义组块类别表 标注 英文说明 中文说明 ADJP Adjective phrase 形容词短语 ADVP Adverbial phrase headed by AD 由副词开头的副词短语,状语 CLP Classifier phra...

2018-11-30 14:49:10

阅读数 103

评论数 0

中文 NLP(6)-- stanford 训练词性标注模型

在 第一节发布的样本中,修改类 StanfordPOSTagger 如下,增加训练模型文件方法: # 词性标注 class StanfordPOSTagger(StanfordCoreNLP): ... 以上代码略,增加如下方法 # 生成训练配置文件命令 def __...

2018-11-30 10:44:24

阅读数 166

评论数 0

中文 NLP(5) -- 宾州树《汉语词性标注规范》

词性标记 英文名称 中文名称 例子 AD adverbs 副词 “还” AS Aspect marker 体标记 了,着,过 BA in ba-const 把/将 把,将 CC Coordinating ...

2018-11-29 15:34:41

阅读数 111

评论数 0

中文 NLP(4) -- 四大概率算法模型之 最大熵模型 ME 及其 GIS 实现

之前分别介绍了朴素贝叶斯模型和隐马尔科夫模型,接下来我们解析第三大概率模型 -- 最大熵模型。说实在的,我这里不愿去写一大堆数学公式出来,即敲的累看的也累。首先介绍下数学思想:在满足一些客观真实(通过训练数据)的约束下,这样的概率模型的子集中,我们选取最大信息熵的那个模型。 我们只说下 CIS ...

2018-11-28 15:35:42

阅读数 50

评论数 0

中文 NLP(3) -- 四大概率算法模型之 隐马尔科夫模型 HMM 和 维特比算法 Viterbi

之前说过,基于NLP处理的算法思想目前主要有两大流派:统计论流派和深度学习流派。而在统计论中,常用的 4 大概率模型分别是 朴素贝叶斯模型,隐马尔科夫模型,最大熵模型和条件随机场模型。 对于朴素贝叶斯模型,前面已经多次打过交道,原理也相对简单。这里解析第二大模型 -- 隐马尔科夫模型。我要说明的...

2018-11-27 12:21:31

阅读数 50

评论数 0

中文 NLP (2) -- ICTCLAS分词

随着白话文的兴起,构成中文的最小独立单位由字转入词。因此分词是中文处理的第一步,没有这一步中文处理也就无法再进行下去。 中文分词有三大流派: 1.机械式分词法:将文档中的字符串与词典中的词条逐一匹配,如果命中,则匹配成功。 2.基于语法和规则:主要是为了解决分词中的第一大难题:歧义切分。因此...

2018-11-23 16:01:33

阅读数 46

评论数 0

中文NLP(1) -- 开源工具 ltp 和 stanford

完整的代码和模型文件可在我的GitHub:(代码是 linux 版本,windows 上运行只需要简单调整) https://github.com/ouprince/pyltp-stanford-nlp LTP 训练套件:https://ltp.readthedocs.io/zh_CN/lat...

2018-11-20 16:59:17

阅读数 130

评论数 0

自编码网络的使用方法 -- 栈式自编码神经网络 SA

栈式自编码神经网络(Stacked Autoencoder, SA)是对自编码网络的一种使用方法。而前面说的自编码(包括卷积,变分,条件变分都只是一种自编码结构),而这里是应用。 SA 是一个由多层训练好的自编码器组成的神经网络。由于网络中的每一层都是单独训练而来,相当于都初始化了一个合理的数值。...

2018-11-07 15:30:31

阅读数 171

评论数 0

采用自编码网络(AE)实现无监督学习

(1)最简单的自编码网络 -- 样本重构功能 自编码网络是输入等于输出的网络,最基本的模型可以视为三层的神经网络,即输入层,隐藏层,输出层。也就看成压缩和解压的过程。编码就是压缩的过程,解码就是解压的过程。一般是一个对称的网络。 基本实现代码(MNIST 数据集图片的压缩和解压)将 784 维...

2018-11-07 11:05:18

阅读数 167

评论数 0

基于rnn 的 基本seq2seq 任务

seq2seq 函数说明 处理 seq2seq 任务 序列到序列问题 编码 - 解码框架: Encoder - Decoder 先使用编码器将输入编码映射到语义空间,得到一个固定维数的向量,这个向量就表示 输入的语义;然后再使用解码器将这个向量解码,获得所需要的输出。 注意:基本的 seq2s...

2018-11-02 12:28:08

阅读数 101

评论数 0

使用 rnn 训练词向量模型

词向量说明如下: 词向量模型表征的是词语与词语之间的距离和联系,词向量也叫词嵌入 word embedding CBOW 模型: 根据某个词的上下文,计算中间词出现的概率,预测的是中心词 Skip-Gram 模型: 跟据中间词,分别计算它的上下文概率,与 CBOW 模型相反,预测的是上下文 ...

2018-10-31 14:03:17

阅读数 220

评论数 0

lstm 结构图解析 和 TensorFlow 中的 RNN 类

LSTM 结构解析如图所示 但是这样的结构说是有一个缺陷,当前的状态 Ct 不能影响输入门和遗忘门在下一时刻的输出,使得整个结构对上个序列的处理丢失了部分信息。所以增加了 窥孔连接。 如图:黑线条即是窥视孔连接   TensorFlow 中的 RNN 类: tf.contrib....

2018-10-25 16:55:45

阅读数 134

评论数 0

tensorflow 笔记附注(全)

附注一:常用的 TensorFlow 数据处理函数 & TensorBoard 可视化 # 主要是写一些 TensorFlow 经常用到的东西 import tensorflow as tf tf.multiply(a,b) a * b tf.add(a,b) ...

2018-10-15 09:58:27

阅读数 1215

评论数 0

贝叶斯分类算法 -- 概率推导

贝叶斯分类算法是基于一种古典概率统计学的一种非常简单的分类方法。废话不多说,尽快进入推导过程,因为很简单。假设 x1,x2... x3 是判断因素,y 是类别结果。那么我们做如下假设: 1. x1,x2 ... x3 是离散事件,即可以统计出 p(x1),p(x2).... p(x3)  ,否则...

2018-09-13 14:12:28

阅读数 161

评论数 0

winnowing 算法 -- 提取文档指纹特征

关于 winnowing 算法的简单的解释就是:基于 k-gram 的哈希码,以最小规则提取部分gram 的哈希码作为文档特征指纹,并记录gram的位置。源码和步骤如下: (1)对文档进行字符标记,比如 "asdf",变成 [(0,"a&am...

2018-09-04 14:53:24

阅读数 445

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭