自然语言处理大菜鸟--HsingWang

自然语言处理 & 机器翻译 & http://hlt.suda.edu.cn/~xwang/

国内外自然语言处理(NLP)研究组

*博客地址http://blog.csdn.net/wangxinginnlp/article/details/44890553 *排名不分先后。收集不全,欢迎留言完善。 中国大陆地区: 腾讯人工智能实验室(Tencent AI Lab) https://ai.tencent.co...

2015-04-05 20:26:26

阅读数 35151

评论数 7

ICTCLAS2014 C++版本 的使用方法

这个工具是什么?先看看他的官方介绍吧: NLPIR汉语分词系统(又名ICTCLAS2013),主要功能包括中文分词;词性标注;命名实体识别;用户词典功能;支持GBK编码、UTF8编码、BIG5编码。新增微博分词、新词发现与关键词提取;张华平博士先后倾力打造十余年,内核升级10次。 虽然介...

2013-12-13 13:30:06

阅读数 11531

评论数 28

ICTCLAS2013 Java版本的使用方法

这个工具是什么?先看看他的官方介绍吧: NLPIR汉语分词系统(又名ICTCLAS2013),主要功能包括中文分词;词性标注;命名实体识别;用户词典功能;支持GBK编码、UTF8编码、BIG5编码。新增微博分词、新词发现与关键词提取;张华平博士先后倾力打造十余年,内核升级10次。 c++版...

2013-04-07 17:47:12

阅读数 15457

评论数 70

[读书笔记] 流畅的python / Fluent Python

  第3章:字典和集合 泛映射类型  可散列的数据类型 An object is hashable if it has a hash value which never changes during its lifetime (it needs a __hash__() method), an...

2019-02-15 10:43:34

阅读数 43

评论数 0

神经机器翻译WMT14英法基准系统 WMT14 English-French Baseline

  最近(2017年以来)的WMT14 English-French Baseline记录   1. GNMT    https://arxiv.org/pdf/1609.08144.pdf    语料处理:a shared source and target vocabulary of...

2018-09-12 16:37:50

阅读数 682

评论数 0

incremental training/align for word alignment

  The Berkeley Word Aligner           https://github.com/mhajiloo/berkeleyaligner           https://github.com/kmccurdy/inc-align        A small ...

2018-08-21 11:29:59

阅读数 119

评论数 0

Adaptation for Neural Machine Translation

目标:7月把NMT adaptation文章通读下 场景:假设储备了大量新闻领域双语语料,少量科技领域双语语料(或者没有),科技领域单语语料(大量、少量或者没有)的大菜鸟翻译公司,接到一个科技领域的翻译项目。如何使用现有资源去尽可能的把科技领域的翻译做好。 问题:这里的科技领域就是in-dom...

2018-07-17 15:50:44

阅读数 391

评论数 0

T2T Transformer 笔记

讨论:https://www.jiqizhixin.com/articles/2017-06-28-5https://ricardokleinklein.github.io/2017/11/16/Attention-is-all-you-need.html1. Mutli GPU 和 Single...

2017-12-08 17:44:33

阅读数 2122

评论数 2

2017/0910 实验结果记录

实验1. Adam+LN(LN没有对context vector和source side的input做) 20000 BLEU score = 0.2947 21000 BLEU score = 0.3159 22000 BLEU score = 0.3109 23000 BLEU score =...

2017-09-25 11:52:30

阅读数 540

评论数 0

深度学习中Dropout和Layer Normalization技术的使用

两者的论文: Dropout:http://www.jmlr.org/papers/volume15/srivastava14a/srivastava14a.pdf Layer Normalization:  https://arxiv.org/abs/1607.06450 两者的实现(以...

2017-09-24 20:53:33

阅读数 4055

评论数 0

神经机器翻译中的领域自适应问题 Domain adaptation for NMT

相关论文: 1. Stanford Neural Machine Translation Systems for Spoken Language Domains.  Minh-Thang Luong and Christopher D. Manning.   http://www.statm...

2017-08-30 16:00:12

阅读数 1193

评论数 0

深度学习训练中cost突然出现NaN

问题:在深度学习训练中,之前的cost是正常的,突然在某一个batch训练中出现Nan。 网络搜索的资料: 1. How to avoid that Theano computing gradient going toward NaN https://stackoverflow.com/quest...

2017-08-23 17:26:16

阅读数 2619

评论数 1

网页正文提取工具Beautiful Soup

Beautiful Soup是什么? Beautiful Soup is a Python library for pulling data out of HTML and XML files. It works with your favorite parser to provide idio...

2017-07-06 15:35:12

阅读数 632

评论数 0

深度学习中Dropout策略

在写系统时候遇到一个问题:模仿的版本在测试阶段,把所有权重乘以一个保留概率(做法1)。而GJH他看的Keras里面测试阶段什么都不做(做法2),所以比较好奇,怎么做法不同? 但是随手搜了几个中文博客,都是按做法1来的,训练阶段按保留概率随机生成一个保留矩阵(元素要么0-丢弃,要么1-保留),然...

2017-05-23 16:41:54

阅读数 1973

评论数 2

组内NLP讨论班阶段总结

讨论班进行了三期了,效果比想象的要好很多。但也遇到不少问题: 1. 公式推导和编码实现     困惑是在讲解模型过程中,不可避免地涉及公式推导和编码实现。讨论班上是否对公式推导进行讲授,讨论班后是否组织大家进行编码实现这两点把握不准。     理想情况下讨论班应该只是成为一个“引子”,通过大家一起...

2017-05-04 22:44:32

阅读数 672

评论数 0

TensorFlow Seq2Seq Model笔记

1. tf.app.run()的疑惑     http://stackoverflow.com/questions/33703624/how-does-tf-app-run-work     tf.app类似python中argparse 2.

2017-03-27 15:11:59

阅读数 13703

评论数 1

TensorFlow1.0 运行报错 AttributeError: type object 'NewBase' has no attribute 'is_abstract'

安装TF后,import tensorflow报错: I tensorflow/stream_executor/dso_loader.cc:135] successfully opened CUDA library libcublas.so.8.0 locally I tensorflow/str...

2017-03-26 23:39:35

阅读数 3386

评论数 0

爱丁堡大学神经机器翻译系统 nematus 使用笔记

代码准备: nematus https://github.com/rsennrich/nematus subword-nmt  https://github.com/rsennrich/subword-nmt

2017-03-22 16:48:03

阅读数 3780

评论数 1

强化学习 Reinforcement Learning 资料

1. 《机器学习》周志华著   第16章 2. https://www.analyticsvidhya.com/blog/2017/01/introduction-to-reinforcement-learning-implementation/ 3. https://www.nervanasys...

2017-03-22 00:10:00

阅读数 1321

评论数 0

组内菜鸟学习班

今天中午和褚师姐孙老师聊天,聊到了专业基础问题。大家都有同感,专业基础太差了。       11年至今,先后呆过四个组(硕士期间,计算所实习期间,博士期间和诺亚实习期间)。纵览各方豪杰,深感自己基础还是稍显薄弱。基础知识包括:机器学习/数学,专业知识,编程能力和英语读写。对于研究生做科研,自己的感...

2017-03-09 21:44:30

阅读数 1032

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭