warrioR_wx-CSDN博客

原创 moses-chart笔记

1. extract-rules1.1 Span Size Limit : The limit on span sizes can be set with max-chart-span. In fact its default is 10, which is not a useful setting for syntax models.from http://www.statmt.or

2015-06-09 10:50:11 1039

原创排版系统Latex傻瓜方式使用(论文排版)

0. 什么是Latex？LaTEX（英语发音：/ˈleɪtɛk/ lay-tek或英语发音：/ˈlɑːtɛk/ lah-tek，音译“拉泰赫”），文字形式写作LaTeX，是一种基于TEX的排版系统，由美国电脑学家莱斯利·兰伯特在20世纪80年代初期开发，利用这种格式，即使使用者没有排版和程序设计的知识也可以充分发挥由TEX所提供的强大功能，能在几天，甚至几小时内生成很多具有书籍品質的印刷品。对

2015-06-03 22:30:45 7189 1

转载我对发表论文的认识

文章转自李建国的个人博客：http://blog.sciencenet.cn/blog-419327-887476.html发表论文基本上是每个科研人员必须干得很溜的本事，一方面是体现自己科研能力的重要方式，一方面也是满足学校机构考评要求的手段，也是传播和交流科学思想和观点的重要途径。一个人能够在一生中能够发表一篇被学界瞩目的论文就足以永载史册。但是并不是每个人一开始就能够发表高质量的论文

2015-06-03 22:04:18 2301

原创自动语法错误校正(Grammatical Error Correction)

写英语论文很折磨人。平时用英语写的少，关键时候写的头痛死。记起前段时间在知乎上看了一个哥们写的NLP潜在热门方向，介绍了自动语法错误校正（具体名称记不起来了，当时没有收藏，现在找不到了）。就不知道怎么想到NLPCC2014上新加坡国立大学Hwee Tou Ng教授的特邀报告Automated Grammatical Error Correction: The State of the Art。

2015-05-26 21:40:46 8252 2

原创双语词表征(bilingual word representation)

关于词表征(word representation) 的解释，可以参考博客《Deep Learning in NLP （一）词向量和语言模型》和ACL2010年的论文 Word representations: A simple and general method for semi-supervised learning。 ACL论文给出的解释是： A word repres

2015-05-22 13:51:20 4692 1

原创 Python标准库cPickle包存储对象报错

python的cPickle包介绍：点击打开链接问题：一千万个30维度的向量存储在文本中，每个向量一行，元素以tab键隔开。在使用cPickle写对象时候报错：google后发现下面三个关于这个的问题：https://github.com/numpy/numpy/issues/2396http://bugs.python.org/issue11872ht

2015-05-15 18:43:39 1171

原创微软句向量工具包Sent2vec

工具包地址：http://research.microsoft.com/en-us/downloads/731572aa-98e4-4c50-b99d-ae3f0c9562b9/default.aspxSlides：http://emnlp2014.org/material/presentation-EMNLP2014002.pdf源自：http://wei

2015-05-13 10:02:50 14029 1

原创 paragraph2vec工作受质疑

Quoc V. Le ICML2014的工作《Distributed Representations of Sentences and Documents》一直饱受争议，很多学者都宣称其工作无法重现。 ICLR2015文章《ENSEMBLE OF GENERATIVE ANDDISCRIMINATIVETECHNIQUES FORSENTIMENTANALYSIS OFMOVIER

2015-05-11 19:52:07 5031

原创维基实体相关度计算笔记

读清华大学刘知远老师的今年的一篇IJCAI文章Representation Learning for Measuring Entity Relatedness with Rich Information。相比词汇相似度计算，维基实体相关度计算更加挖掘维基百科语料库的特性。其相关性计算大致分为三类：1. text-theoretic 利用维基百科语料的海量特性。通过统计的方法进行词汇表征

2015-05-08 10:43:30 1283

原创中文词汇语义相关度的测试集（免费）

在看清华大学刘知远老师的今年的一篇IJCAI文章Representation Learning for Measuring Entity Relatedness with Rich Information，发现他们的实验是在中文上做的。实验测试集合引用的是国防科大11年的一篇《基于中文维基百科链接结构与分类体系的语义相关度计算》所公布的测试集合。Words-240测试集地址：http://ww

2015-05-08 09:53:44 2321 1

原创贝叶斯线性回归(Bayesian Linear Regression)

参考：1. 贝叶斯线性回归(Bayesian Linear Regression)2. 10 types of regressions. Which one to use?

2015-04-23 16:48:53 3306

原创卡耐基梅隆大学计算机学院语言技术系的资源大全

信息来自微博：工具集合地址：http://islpc21.is.cs.cmu.edu:3000/lti_catalogue

2015-04-23 13:43:44 1877

原创 stanfor dependency parser 处理失败

stanfor dependency parser有环存在,导致我程序递归太深报错。

2015-04-15 16:43:01 1430

原创 Max Time-Delay Neural Networks

参考文章：A Unified Architecture for Natural Language Processing：Deep Neural Networks with Multitask Learning ICML08A convolutional neural network for modelling sentences ACL14

2015-04-10 21:12:27 2383

原创 DeepLearning工具Theano学习记录（三） CNN卷积神经网络

代码参考：http://deeplearning.net/tutorial/lenet.html#lenet代码学习：http://blog.csdn.net/u012162613/article/details/43225445本节实验代码下载：Github2015/4/9Experiment 1: 使用Tutorial推荐的CNN结构实验learnin

2015-04-09 18:41:28 2471

原创牛津大学神经网络语言模型 OxLM 安装及使用

预备知识语言模型[摘自维基百科]统计式的语言模型是借由一个概率分布，而指派概率给字词所组成的字串：语言模型经常使用在许多自然语言处理方面的应用，如语音识别，机器翻译，词性标注，句法分析和资讯检索。由于字词与句子都是任意组合的长度，因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题)，也使得在语料库中估算字串的概率变得很困难，这也是要使用近似的平滑n元语法

2015-04-06 15:29:49 2212

原创 DeepLearning工具Theano学习记录（二）多层感知机

Case 1:使用推荐的配置 learning_rate = 0.01 L1_reg = 0.00 L2_reg=0.0001n_epoches=1000batch_size=20n_hidden=500实验结果:实验耗时：Case 2:自己中间加入两个隐含层，分别为400 和 300 个节点。实验配置如下： learn

2015-04-03 17:46:05 1963

原创 Berkeley Parser 处理失败

情况1：情况2：

2015-03-31 14:19:45 1312

原创 DeepLearning工具Theano学习记录（一）逻辑斯蒂回归

参考博客：http://blog.csdn.net/u012162613/article/details/43225445#comments仍然报错：头大了，只能一边求救于师兄，一边自己google。

2015-03-26 22:28:34 2920 2

原创 Linux限制用户行为

最近服务器上人数较多，资源紧张。突出表现为由于用户不及时清理，硬盘空间经常不足；用户不顾后果疯狂上进程，导致内存和CPU紧张。特意查资料，对用户硬盘空间、内存使用、CPU等进行限制。所用系统情况：Linux ic-m3.localdomain 2.6.32-220.el6.x86_64 #1 SMP Wed Nov 9 08:03:13 EST 2011 x86_64 x86_64 x86_6

2015-03-23 19:56:13 2305

原创牛顿法

对牛顿法做优化中的一个步骤不是很了解，查了CSDN上三篇关于牛顿法的博客1）http://blog.csdn.net/ubunfans/article/details/415200472）http://blog.csdn.net/luoleicn/article/details/65270493）http://blog.csdn.net/itplus/article/details/2

2015-03-20 11:07:16 765

原创 Recurrent Neural Network Language Modeling Toolkit代码学习

Recurrent Neural Network Language Modeling Toolkit 工具使用点击打开链接按照训练的进度学习代码：trainNet()中的结构：step1. learnVocabFromTrainFile() 统计训练文件中所有的单词信息，并对统计好的信息进行整理涉及的数据结构：

2014-08-05 15:12:28 3427

原创 Recurrent Neural Network Language Modeling Toolkit by Tomas Mikolov使用示例

递归神经网络工具地址：http://www.fit.vutbr.cz/~imikolov/rnnlm/

2014-08-02 10:21:41 5523 8

原创 Deep Learning（深度学习) 学习笔记（四）

语言模型概率语言模型神经概率语言模型 Deep Learning

2014-05-05 23:04:17 3385 1

原创 Deep Learning（深度学习) 学习笔记（三）

前言：昨天看到微博上分享的深度学习视频，为上海复旦大学吴立德教授深度学习课程，一共六课时，视频地址点击打开链接。在此我结合其他资料，写点个人的学习笔记进行记录。第三，四课：稀疏编码本课吴老师对稀疏编码做了一个简单的介绍。内容分为三块：1.深度学习 2.稀疏编码**这两节课讲的是稀疏编码，关于稀疏编码编码，数学理解不难。难得是如何跟实际问题结合起来。所以这两节笔记仅仅

2014-01-18 10:38:10 5697 1

原创 Deep Learning（深度学习) 学习笔记（二）

前言：昨天看到微博上分享的深度学习视频，为上海复旦大学吴立德教授深度学习课程，一共六课时，视频地址。在此我结合其他资料，写点个人的学习笔记进行记录。简单概念：神经元图1,神经元（图片来自维基百科）神经元输入： [此处的x对应图1中的a]神经元输出： [此处中的a对应图1中的t]神经层图2.神经网

2014-01-07 12:34:25 8642 3

原创 Deep Learning（深度学习) 学习笔记（一）

前言：昨天看到微博上分享的深度学习视频，为上海复旦大学吴立德教授深度学习课程，一共六课时，视频地址点击打开链接。在此我结合其他资料，写点个人的学习笔记进行记录。第一课：概率本课吴老师对深度学习做了一个简单的介绍。内容分为三块：1.深度学习简介 2.深度学习应用 3.领域概况1.深度学习简介。深度学习（deep learning）是机器学习（machi

2014-01-02 17:25:55 13582 2

原创学习笔记：逻辑斯蒂回归（logistic regression）

什么是逻辑斯蒂回归，参见维基百科的解释点击打开链接。后面的参考博客已经给逻辑斯蒂回归做了很多基础东西的讲解（越是基础的东西越难讲清楚）。在这里我对逻辑斯蒂回归做一点自己的思考笔记。问题：Q1，为什么选用logistic function？Q2，logistic regression到底在做什么？Q2，logistic regr

2013-12-28 13:17:16 4010 5

原创 c++ extern 示例

test.h#ifndef HEAD_H#define HEAD_Hextern double pi;#endif

2013-11-21 09:59:38 1411

原创 matlab杂记

矩阵的拆分length(A) = max( size(A) )矩阵运算矩阵点运算矩阵subs http://blog.sina.com.cn/s/blog_4b94ff130100gdk9.html符号矩阵求偏导

2013-10-23 22:35:40 3006

原创 c++ 杂记

2013.7.31vector的eraseiterator erase (iterator position);iterator erase (iterator first, iterator last);string的erasesequence (1) string& erase (size_t pos = 0, size_t len =

2013-07-31 18:05:36 1261

原创问题：shell脚本while中的more和cat

自己shell写的玩意：oov_file=${1}corpus_file=${2}#cat ${oov_file}#wc -l ${corpus_file}cat ${oov_file} | while read linedo echo ${line} more ${corpus_file} | grep ${line} | wc -l done不wo

2013-05-28 17:19:47 1618

原创哥伦比亚大学自然语言处理公开课授课讲稿翻译（四）

前言：心血来潮看了一个自然语言处理公开课，大牛柯林斯讲授的。觉得很好，就自己动手把它的讲稿翻译成中文。一方面，希望通过这个翻译过程，让自己更加理解大牛的讲授内容，锻炼自己翻译能力。另一方面，造福人类，hah。括号内容是我自己的辅助理解内容。翻译的不准的地方，欢迎大家指正。课程地址：https://www.coursera.org/course/nlangp哥伦比亚大学自

2013-05-26 20:51:02 3509 1

原创哥伦比亚大学自然语言处理公开课授课讲稿翻译（三）

前言：心血来潮看了一个自然语言处理公开课，大牛柯林斯讲授的。觉得很好，就自己动手把它的讲稿翻译成中文。一方面，希望通过这个翻译过程，让自己更加理解大牛的讲授内容，锻炼自己翻译能力。另一方面，造福人类，hah。括号内容是我自己的辅助理解内容。翻译的不准的地方，欢迎大家指正。课程地址：https://www.coursera.org/course/nlangp哥伦比亚大学自

2013-05-25 22:46:40 3174

原创哥伦比亚大学自然语言处理公开课授课讲稿翻译（二）

前言：心血来潮看了一个自然语言处理公开课，大牛柯林斯讲授的。觉得很好，就自己动手把它的讲稿翻译成中文。一方面，希望通过这个翻译过程，让自己更加理解大牛的讲授内容，锻炼自己翻译能力。另一方面，造福人类，hah。括号内容是我自己的辅助理解内容。翻译的不准的地方，欢迎大家指正。课程地址：https://www.coursera.org/course/nlangp哥伦比亚大学自

2013-05-25 10:15:00 5164 1

原创哥伦比亚大学自然语言处理公开课授课讲稿翻译（一）

前言：心血来潮看了一个自然语言处理公开课，大牛柯林斯讲授的。觉得很好，就自己动手把它的讲稿翻译成中文。一方面，希望通过这个翻译过程，让自己更加理解大牛的讲授内容，锻炼自己翻译能力。另一方面，造福人类，hah。括号内容是我自己的辅助理解内容。翻译的不准的地方，欢迎大家指正。课程地址：https://www.coursera.org/course/nlangp哥伦比亚大学自然语言处理

2013-05-24 19:46:52 7701 3

原创自己使用python的列表del函数一个思维误区

搜索关于python的list的del随意找一篇：如下------------------------------------------------------------------------------------------------------------------del用于list列表操作，删除一个或者连续几个元素。示例程序如下：>>> a = [-1, 3,

2013-05-23 15:10:36 2464 1

原创机器翻译系统moses报错记录

1，使用已有的词汇化概率lex文件如果训练目录下以后lex文件，那么moses将使用已有的lex文件，不去统计词汇化概率。(4) generate lexical translation table 0-0 @ Wed Apr 24 17:20:15 CST 2013 moses输出： reusing: /**/lex.f2e and /**/lex.e2f 2，mo

2013-04-25 19:02:11 2937

原创支持向量机笔记

读李航老师《统计学习方法》笔记模型：线性可分支持向量机（linear support vector machine in linearly separable case）线性支持向量机（linear support vector machine）非线性支持向量机（non-linear support vector machine）训练数据的性质：训练数据

2013-04-24 09:56:51 1889 1

原创张乐博士的工具包mexent 笔记

张乐博士最大熵工具包：下载地址点击打开链接我自己数据放进去，迭代20轮，程序处理完后输出：Total 1063226 training events and 0 heldout events added in 2.63 sReducing events (cutoff is 1)...Reduced to 935244 training events最后程序报错：

2013-04-22 16:14:27 3216

空空如也

空空如也