NLP
文章平均质量分 66
warrioR_wx
Java C++ 菜鸟 外出务工 http://hlt.suda.edu.cn/~xwang/
展开
-
谈语感:统计语言模型
我们都经历过初中英语的学习阶段——学习英语单词,学习英语语法等。当时老师很强调早读的重要性。 比如有个选择题,让你选你会选什么?为什么呢?He kept thinking of the question whether it was ____ for his father to change the habit of a life time in such a short原创 2012-08-29 10:23:34 · 1229 阅读 · 0 评论 -
国内外自然语言处理(NLP)研究组
*博客地址http://blog.csdn.net/wangxinginnlp/article/details/44890553*排名不分先后。收集不全,欢迎留言完善。中国大陆地区:腾讯人工智能实验室(Tencent AI Lab) https://ai.tencent.com/ailab/nlp/苏州大学自然语言处理实验室 http:/...原创 2015-04-05 20:26:26 · 55541 阅读 · 8 评论 -
ICTCLAS2013 Java版本的使用方法
这个工具是什么?先看看他的官方介绍吧:NLPIR汉语分词系统(又名ICTCLAS2013),主要功能包括中文分词;词性标注;命名实体识别;用户词典功能;支持GBK编码、UTF8编码、BIG5编码。新增微博分词、新词发现与关键词提取;张华平博士先后倾力打造十余年,内核升级10次。c++版本的使用方法:点击打开链接Java32位版本下载地址:点击打开链接介绍时候原创 2013-04-07 17:47:12 · 16050 阅读 · 70 评论 -
DeepLearning工具Theano学习记录(二) 多层感知机
Case 1:使用推荐的配置 learning_rate = 0.01 L1_reg = 0.00 L2_reg=0.0001n_epoches=1000batch_size=20n_hidden=500实验结果:实验耗时:Case 2:自己中间加入两个隐含层,分别为400 和 300 个节点。实验配置如下: learn原创 2015-04-03 17:46:05 · 1962 阅读 · 0 评论 -
ICTCLAS2013 的使用方法
这个工具是什么?先看看他的官方介绍吧:NLPIR汉语分词系统(又名ICTCLAS2013),主要功能包括中文分词;词性标注;命名实体识别;用户词典功能;支持GBK编码、UTF8编码、BIG5编码。新增微博分词、新词发现与关键词提取;张华平博士先后倾力打造十余年,内核升级10次。ICTCLAS2013 Java版本的使用方法 请点击点击打开链接一,先下载c++原创 2013-04-12 13:29:21 · 9140 阅读 · 15 评论 -
stanfor dependency parser 处理失败
stanfor dependency parser有环存在,导致我程序递归太深报错。原创 2015-04-15 16:43:01 · 1430 阅读 · 0 评论 -
卡耐基梅隆大学计算机学院语言技术系的资源大全
信息来自微博:工具集合地址:http://islpc21.is.cs.cmu.edu:3000/lti_catalogue原创 2015-04-23 13:43:44 · 1876 阅读 · 0 评论 -
牛津大学神经网络语言模型 OxLM 安装及使用
预备知识语言模型[摘自 维基百科]统计式的语言模型是借由一个概率分布,而指派概率给字词所组成的字串:语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的概率变得很困难,这也是要使用近似的平滑n元语法原创 2015-04-06 15:29:49 · 2212 阅读 · 0 评论 -
Max Time-Delay Neural Networks
参考文章:A Unified Architecture for Natural Language Processing:Deep Neural Networks with Multitask Learning ICML08A convolutional neural network for modelling sentences ACL14原创 2015-04-10 21:12:27 · 2383 阅读 · 0 评论 -
统计机器翻译牛人的主页(不完整)
今天心血来潮找了几个机器翻译牛人的主页(排名不分先后),其他的等以后慢慢添加:国内部分:刘群(计算所 -> 都柏林) 点击打开链接刘洋(计算所 -> 清华) 点击打开链接朱靖波(东北大学) 点击打开链接肖桐(东北大学) 点击打开链接国外部分:Michael Collins(哥伦比亚大学) 点击打开链接Philipp Koehn(爱丁堡大学) 点击打原创 2013-03-28 13:08:29 · 3509 阅读 · 0 评论 -
张乐博士的工具包mexent 笔记
张乐博士最大熵工具包:下载地址 点击打开链接我自己数据放进去,迭代20轮,程序处理完后输出:Total 1063226 training events and 0 heldout events added in 2.63 sReducing events (cutoff is 1)...Reduced to 935244 training events最后程序报错:原创 2013-04-22 16:14:27 · 3215 阅读 · 0 评论 -
关于使用中文分词工具ICTCLAS2013 Java版本乱码的问题
中文分词工具ICTCLAS2013Java版本的使用什么的我就不罗嗦了,不知道怎么使用的点这里点击打开链接。我的eclispe的text file encoding是GBK的。这个也就不废话了。运行一下,控制台输出一堆乱码的东西:图1. 直接运行后控制台输出乱码。为什么会这个样子呢?看看工具发布主页的FAQ中的一个问题:图2. FAQ中一个关于编码的问题。原创 2013-04-08 10:36:14 · 5827 阅读 · 9 评论 -
机器翻译自动评测方法BLEU值方法
最近看了看目前用得最广的机器翻译自动评测方法BLEU的原始论文,觉得这篇paper里面的工作做得很nice。让我很有感触。 随着统计机器翻译方法的兴起,一个有趣的问题摆在人们的面前:如何评价一个机器翻译方法的好坏? 最开始人们选用的是人工评测的方法,那就是一个翻译结果得到后,找一批专家来给每个句子翻译结果打分,然后统计均分。这里面就有问题了?首先,如果两个翻译结果给两批专家打分原创 2012-11-06 20:09:56 · 13590 阅读 · 1 评论 -
Adaptation for Neural Machine Translation
目标:7月把NMT adaptation文章通读下场景:假设储备了大量新闻领域双语语料,少量科技领域双语语料(或者没有),科技领域单语语料(大量、少量或者没有)的大菜鸟翻译公司,接到一个科技领域的翻译项目。如何使用现有资源去尽可能的把科技领域的翻译做好。问题:这里的科技领域就是in-domain,新闻领域是out-domain。如何使用数量有限的in-domain parallel cor...原创 2018-07-17 15:50:44 · 1070 阅读 · 0 评论