自然语言处理

最新推荐文章于 2024-06-10 12:53:46 发布

~扬之水~

最新推荐文章于 2024-06-10 12:53:46 发布

阅读量652

点赞数

分类专栏：深度学习文章标签：深度学习

本文链接：https://blog.csdn.net/garmoo/article/details/84860038

版权

深度学习专栏收录该内容

8 篇文章 1 订阅

订阅专栏

分词切词工具

最常用的开源切词工具是moses
切词前的文本如下：
And we knew it was volcanic back in the ’60 s ,’7 0s.
切词后的文本如下，注意单引号和数字、逗号和句号之前都增加了空格：
And we knew it was volcanic back in the ’ 60 5 ,’ 7 0s .
对于中文文本而言，为了方便起见，本书的例子中直接以字为单位进行切割。
切词前的文本如下：
六七十年代时才找们只知道这是一座火山。
切词后的文本如下。每个字和符号之间都增加了空格
六七十年代时我们只知道这是一座火山。
基于java的分词工具–Hanlp分词
自然语言处理中文分词词性标注命名实体识别依存句法分析新词发现关键词短语提取自动摘要文本分类聚类拼音简繁
分词效果：
不好_a ，_w 直接_a 把_p 墨盒_n 堵死_v
每个词用空格分隔，_a等表示词性，_w表示标点符号
项目地址
https://github.com/hankcs/HanLP
pkuseg中文分词
pkuseg 是由北京大学语言计算与机器学习研究组研制推出的一套全新的中文分词工具包。它简单易用，支持多领域分词，在不同领域的数据上都大幅提高了分词的准确率。
项目地址：https://github.com/lancopku/PKUSeg-python
THULAC中文分词
python版项目地址：https://github.com/thunlp/THULAC-Python
java版项目地址：https://github.com/thunlp/THULAC-Java
C++版项目地址：https://github.com/thunlp/THULAC
“结巴”中文分词
python版项目地址：https://github.com/fxsjy/jieba
java版项目地址：https://github.com/huaban/jieba-analysis

中文分词训练数据集

MSRA：新闻语料库。
CTB8：新闻文本及网络文本的混合型语料库。
WEIBO：微博网络文本语料库。
PKU：北大PKU语料库。

语言模型的评价方法

.语言模型的任务是预测每个句子在语言中出现的概率；
MLE: Maximum Likelihood Estimation 最大似然估计
perplexity 复杂度：在一个测试集上得到的perplexity越低，说明建模的效果越好。
average branching factor 平均分支系数：模型预测下一个词时的平均可选择数量
log perplexity可以视为 Cross Entropy
TensorFlow提供了以下两个计算交叉熵的函数：
tf.nn.softmax_cross_entropy_with_logits
tf.nn.sparse_softmax_cross_entropy_with_logits
两个函数的不同支持是tf.nn.softmax_cross_entropy_with_logits函数需要将预测目标以概率分布的形式给出。
由于tf.nn.softmax_cross_entropy_with_logits 允许提供一个概率分布，因此在使用时有更大的自由度。举个例子，一种叫label smoothing 的技巧是将正确数据的概率设为一个比1. 0略小的值，将错误数据的概率设为比0.0 略大的值，这样可以避免模型与数据过拟合，在某些时候可以提高训练效果。

神经语言模型

在神经语言模型中保留13 个单词的上文信息大致可以取得与保存所有上文信息相同的效果。

PTB数据集的预处理

PTB（Penn Treebank Dataset）文本数据集是目前语言模型学习中使用最为广泛的数据集。
来源于 Tomas Mikolov 网站上的 PTB 数据集http://www.fit.vutbr.cz/~imikolov/rnnlm/simple-examples.tgz
使用常用的开源切词工具moses切词。

PTB数据的batching方法

padding ：将同一batch内的句子长度补齐
将长序列切割为固定长度的子序列
将整个文档切分中若干连续段落，再让batch中的每一个位置负责其中一段

基于循环神经网络的神经语言模型

词向量 embedding
降低输入的纬度
增加语义信息
tf.nn.embedding_lookup
Softmax
logits
调用softmax方法将logits转化为加和为1的概率
共享向量层和softMax层参数大幅减少参数数量，还能提高最终模型效果

神经网络翻译

机器翻译背景与Seq2Seq模型介绍

Encoder和Decoder

机器翻译文本数据的预处理

数据集WMT：Workshop on statistical Machine Translation
使用开源切词工具moses切词
tf.data.Dataset.padded_batch:填词工具
tf.nn.dynamic_rnn
为了不影响填充训练
循环神经网络在读取填充时，应当跳过这一位置的计算
在设计损失函数时需要特别将填充位置的损失权重设置为0，这样在填充位置产生的预测不会影响梯度的运算。

注意力机制

Attention ：允许解码器随时查阅输入句子中的部分单词和片段，因此不再需要在中间变量中存储所有信息。

在这里插入图片描述

tf.contrib.seq2seq.AttentionWrapper：将解码器的循环神经网络层和注意力结合。

参考：《TensorFlow实战Google深度学习框架2.0》第9章
相关链接：
[1] 基于gensim的Doc2Vec简析 http://blog.csdn.net/lenbow/article/details/52120230

~扬之水~

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
自然语言处理

语言模型的评价方法perplexity 复杂度：在一个测试集上得到的perplexity越低，说明建模的效果越好。average branching factor 平均分支系数：模型预测下一个词时的平均可选择数量log perplexity可以视为 Cross EntropyTensorFlow提供了以下两个计算交叉熵的函数：tf.nn.softmax_cross_entropy_wit...
复制链接

扫一扫

专栏目录