自然语言处理
文章平均质量分 63
仲夏199603
这个作者很懒,什么都没留下…
展开
-
抽取式文档摘要方法(二)
1、基于有监督学习的方法可考虑众多因素,由机器学习算法确定句子重要性 句子分类 二类分类:句子是否隶属于摘要 SVM(支持向量机) 序列标注 为每个句子打上标签 可考虑相邻句子之间的关系 HMM(隐马尔科夫模型),CRF(条件随机场) 句子回归 为每个句子预测一个反映重要性的分数 SVR(支持向量回归)2、基于神经网络的方法 基于编码器-解码器框架进行单文档摘要 编码器:翻译 2017-11-29 13:17:28 · 4756 阅读 · 0 评论 -
关于文本生成的数据集记录
摘要数据集cnn/dailymailGigaword Gigaword corpus [Graff and Cieri, 2003] preprocessed identically to [Rush et al., 2015], which leads to around 3.8M training samples, 190K validation samples and 1951 t...原创 2018-07-17 17:18:18 · 6338 阅读 · 1 评论 -
基本语义信息单元 BSU(basic semantic unit)
BSU(basic semantic unit): 1、语义信息可以被获得通过基本语义信息单元和构建基本语义信息连接网络。 语义信息连接网络和详细信息见论文《Abstractive Multi-document Summarization with Semantic Infor- mation Extraction》。 2、BSU是由一个三元组组成:actor-action-receiver...原创 2018-07-10 15:30:45 · 1756 阅读 · 0 评论 -
python及tensorflow代码学习使用笔记
1、对于列表的连接操作 sequence是一个数值列表,想要在sequence前面再加上一项,具体的操作如下所示:inp = [start_id] + sequence[:] #start_id是一个常数#即使用加号实现两个列表的连接对于在列表尾直接添加一项,可以使用append操作target.append(stop_id) #在列表target尾部...原创 2018-03-11 13:21:02 · 3284 阅读 · 0 评论 -
关于tensorflow在训练或者测试时越来越慢,重启之后又恢复
问题描述: Tensorflow 训练时运行越来越慢,重启后又变好。用的是Tensorflow-GPU 1.2版本,在GPU上跑,大概就是才开始训练的时候每个batch的时间很低,然后随着训练的推进,每个batch的耗时越来越长,但是当我重启后,又一切正常了? 问题解决: 因为在运行时的session里定义了tf的op导致的。这样每一次迭代都会在graph里增加新的节点,导致memory l...原创 2018-03-15 16:56:38 · 8519 阅读 · 0 评论 -
在Linux环境下配置pyrouge
1、首先需要安装rouge 具体安装方式见如下博客: http://blog.csdn.net/Hay54/article/details/78744912 2、需要安装及配置pyrouge http://blog.csdn.net/MerryCao/article/details/49174283 pyrouge本身是有bug的,所以很恶心,需要自己改一下…基本完成windows下安装p转载 2018-01-07 13:46:57 · 5339 阅读 · 0 评论 -
英文分词和中文分词
1、NER命名实体识别命名实体识别(Named EntitiesRecognition, NER)是自然语言处理(Natural LanguageProcessing, NLP)的一个基础任务。其目的是识别语料中人名、地名、组织机构名等命名实体。由于这些命名实体数量不断增加,通常不可能在词典中穷尽列出,且其构成方法具有各自的一些规律性,因而,通常把对这些词的识别从词汇形态处理(如汉语切分)任务中独立转载 2018-01-02 10:06:10 · 13130 阅读 · 0 评论 -
tensorflow seq2seq代码学习
转载博客:http://blog.csdn.net/thriving_fcl/article/details/74165062相关代码如下(自己加了些注释):# -*- coding: utf-8 -*-import tensorflow as tffrom tensorflow.contrib.seq2seq import *from tensorflow.python.layers.core转载 2017-12-15 13:16:01 · 1426 阅读 · 0 评论 -
tensorflow学习笔记:LSTM 与 GRU
转载地址:http://blog.csdn.net/u012436149/article/details/52887091基本LSTMtensorflow提供了LSTM实现的一个basic版本,不包含lstm的一些高级扩展,同时也提供了一个标准接口,其中包含了lstm的扩展。分别为:tf.nn.rnn_cell.BasicLSTMCell(), tf.nn.rnn_cell.LSTMCell()LS转载 2017-12-14 20:06:41 · 639 阅读 · 0 评论 -
用tensorflow实现单词预测问题with LSTM
**本程序需要用到tensorflow的model库,然而在tensorflow 1 以后的版本就不自动安装model模块了,需要自己单独安装。# -*- coding: utf-8 -*-import numpy as npimport tensorflow as tffrom tensorflow.models.rnn.ptb import readerDATA_PATH = "/F/jhq原创 2017-12-14 19:18:04 · 2186 阅读 · 3 评论 -
序列到序列的网络seq2seq
1、seq2seq使用两个循环神经网络,将一个语言序列直接转换到另一个语言序列。2、序列到序列的模型是循环神经网络的升级版,其联合了两个循环神经网络。一个神经网络负责接收源句子;另一个循环神经网络负责将句子输出成翻译的语言。这两个过程分别称为编码和解码的过程。示意图如下: 3、编码编码过程实际上使用了循环神经网络记忆的功能,通过上下文的序列关系,将词向量依次输入网络。对于循环神经网络,每一次网络都原创 2017-12-10 15:38:34 · 8847 阅读 · 1 评论 -
LSTM
1、对于长时依赖问题循环神经网络难以记忆长时间的信息。 LSTM长短时记忆网络能在一定程度上解决长时依赖问题。2、输入门、遗忘门和输出门输入门控制着网络的输入 遗忘门控制着记忆单元 输出门控制着网络的输出遗忘门的作用就是决定以前的哪些记忆将被保留,哪些记忆将被遗忘,正是由于遗忘门的作用,LSTM有了长期记忆的功能。对于给定的功能,遗忘门能够自己学习保留多少以前的记忆。3、遗忘门——记忆衰减系数原创 2017-12-10 11:18:26 · 2719 阅读 · 0 评论 -
coling2018最佳论文
http://coling2018.org/coling-2018-best-papers/机器之心的推送: https://www.jiqizhixin.com/articles/2018-06-19-11我感兴趣的论文列表: A Lexicon-Based Supervised Attention Model for Neural Sentiment AnalysisDynam...原创 2018-08-03 10:29:20 · 1654 阅读 · 0 评论