神经机器翻译
神经机器翻译相关笔记
kudou1994
这个作者很懒,什么都没留下…
展开
-
No module named 'wtforms' 解决办法
记录一下,,本菜鸡查了好久pip install wtformspip install wtfpip install Flask-WTF #或者 easy_install Flask-WTF完美解决(不懂Flask,只是想跑个小demo)原创 2019-01-31 21:52:25 · 11545 阅读 · 1 评论 -
机器翻译Transformer框架分析笔记 | Attention is all you need
个人笔记使用,记录简短,如果有人看到了这篇文章,请直接拉到本文最后,看参考的那几篇文章,写的比较好,一看就懂。〇、笔记中对Encoder-Decoder Attention理解有误此注意力中的输入Q K V其中K V应该是从编码器得到的输出乘以decoder子层随机初始化的W_K和W_V得到的Q是上一步self-attention的输出乘以decoder子层随机初始化的W_Q得到的注意:...原创 2019-08-10 06:02:18 · 2949 阅读 · 2 评论 -
机器翻译 Transformer代码笔记
(未完)代码来源Github:kyubyong/transformer/tf1.2_legacy作者已更新较新版本tensorflow对应的transformer代码,本笔记基于老代码做笔记使用代码1:hyperparams.py 定义超参数文件# -*- coding: utf-8 -*-#/usr/bin/python2'''June 2017 by kyubyong park...原创 2019-08-05 04:18:21 · 4902 阅读 · 0 评论 -
使用Moses进行英文分词tokenizer、truecasing、lowercasing、clean等
打开MOSES主站http://www.statmt.org/moses/ 安装MOSES并安装其他依赖GIZA++等tokenizer处理~/mosesdecoder/scripts/tokenizer/tokenizer.perl -l en < en_yuliao_test.txt > en_yuliao_test_tok.txttruecasing处理创建model文...原创 2019-05-27 16:24:45 · 7210 阅读 · 2 评论 -
使用哈工大LTP分词工具进行批量中文分词 python3版本
python版本官方项目地址pyLTP官方文档本机环境:ubuntu16.04 python3.6安装项目代码与模型文件 官方地址在home目录下安装项目代码与模型文件,文件夹名称分别为 pyltp 与 ltp_data_v3.4.0在pyltp目录下,新建三个文件夹sourceWords,targetWords,zidian,script分别存放原语料,目标语料,字典文件,模型文件(将...原创 2019-05-27 14:53:08 · 10065 阅读 · 0 评论 -
Tensorflow-probability、Tensorflow、Tensor2Tensor、CUDA之间的版本对应关系
ImportError: This version of TensorFlow Probability requires TensorFlow version &amp;gt;= 1.13.1; Detected an installation of version 1.12.0. Please upgrade TensorFlow to proceed.本机使用GTX1080ti目前Tensorf...原创 2019-03-12 19:29:16 · 11552 阅读 · 2 评论 -
机器翻译Transformer实战:利用nvidia-docker和Tensorflow Serving快速部署一个基于Tensor2Tensor的神经机器翻译服务
Docker目前也只是跑通,能进行基本的使用。如果有需求,还可以使用Docker GPU版本,可以使用GPU。以GPU版本为例:卸载原有的Dockersudo apt-get remove dockersudo apt-get remove docker-cesudo apt-get remove docker docker-engine docker.io containerd ru...原创 2019-02-18 23:07:49 · 5582 阅读 · 3 评论 -
单向LSTM与双向LSTM对比
一个简单的DEMO:实现手写数字图片的识别单向LSTM利用的数据集是tensorflow提供的一个手写数字数据集。该数据集是一个包含55000张28*28的数据集。 训练100次 识别准确率还不是很稳定,但是从第17次开始就趋于相对稳定的状态了。# -*- coding: utf-8 -*-import tensorflow as tffrom tensorflow.contr...原创 2018-06-29 05:09:50 · 25146 阅读 · 0 评论 -
NLP分词算法笔记
常见的分词算法:基于字符串匹配的分词方法、基于理解的分词方法、基于统计的分词方法和基于规则的分词方法。原创 2019-09-14 22:08:47 · 1811 阅读 · 0 评论