自然语言处理
南山牧笛
只有站在高处,才会看见更美丽的风景
展开
-
Deep Learning in NLP (一)词向量和语言模型
这篇博客是我看了半年的论文后,自己对 Deep Learning 在 NLP 领域中应用的理解和总结,在此分享。其中必然有局限性,欢迎各种交流,随便拍。 Deep Learning 算法已经在图像和音频领域取得了惊人的成果,但是在 NLP 领域中尚未见到如此激动人心的结果。关于这个原因,引一条我比较赞同的微博。 @王威廉:Steve Renals算了一下icassp录取文章题目转载 2015-09-11 18:42:52 · 515 阅读 · 0 评论 -
斯坦福大学自然语言处理第四课“语言模型(Language Modeling)
一、课程介绍 斯坦福大学于2012年3月在Coursera启动了在线自然语言处理课程,由NLP领域大牛Dan Jurafsky 和 Chirs Manning教授授课: https://class.coursera.org/nlp/ 以下是本课程的学习笔记,以课程PPT/PDF为主,其他参考资料为辅,融入个人拓展、注解,抛砖引玉,欢迎大家在“我爱公开课”上一起探讨学习。转载 2015-09-11 18:33:43 · 1111 阅读 · 0 评论 -
二元语法(2-gram)分词中的平滑算法
从一年前的计算语言学作业开始,我一直没明白,为什么我写的二元语法分词要比一元语法差。两天来我仔细分析了一下之前的实验细节,发现二元语法分词要超过一元语法,可以有两种方式:1.超大的语料;2.强大的平滑算法。 实验采用北大人民日报1-6月语料,大约700万字,选其中90%作为训练数据,另外10%作为测试数据。先看下实验结果: 分词方法 准确率 召回率转载 2015-09-11 19:12:05 · 2309 阅读 · 0 评论 -
维基百科简体中文语料的获取
维基百科简体中文语料的获取 Posted on 2013 年 4 月 4 日 最近做实验需要较大规模的中文语料,很自然的就想到使用维基百科的中文数据。 使用维基百科做训练语料有很多好处: 维基百科资源获取非常方便,有 Wiki Dump 可以直接下载,所有的最新备份都在里面。最近的一次备份是3月底,也就是5天前。相比之下,其他很多语料都需要用爬虫抓取,或转载 2015-09-11 19:10:45 · 879 阅读 · 0 评论 -
windows环境下搭建python+nltk开发环境
windows环境下搭建python+nltk开发环境 nltk(Natural Language Tookit)实际上是python的一个开发包。对于自然语言处理任务非常有用。 =============================================================================================== NLT转载 2015-09-17 14:39:08 · 519 阅读 · 0 评论