NLP
ArthurYang
这个作者很懒,什么都没留下…
展开
-
错别字分析——自建错词库
前几天帮师兄弄一个错词库,网上找了半天都没有,就自己动手浏览各大论坛、贴吧,自己鼓捣了一个极少的错词库,共200+的错词,分成两个txt文档,有需要的可以拿来下载使用。文件格式:错误-正确\t[错误]例句\t[正确]例句\n例子:结帐-结账 喝的差不多了人家来[结帐]喝的差不多了人家来[结账]传送门:https://github.com/Rrbsmoy/NLP/tree/maste原创 2015-01-08 14:47:12 · 6086 阅读 · 1 评论 -
《统计学习方法》学习笔记
最近把李航的《统计学习方法》看完了,感觉很不错,从概论到各个统计方法,由易到难层层推进,每个方法都有详尽的数学公式推倒,感觉很适合有一定数学功底的人作为机器学习入门来看。可惜本人自幼愚钝,资质欠佳,以前学的概率论与数理统计的知识都忘得差不多了,看得云里雾里的,前面还好,越到后面越看不明白,遇到不懂的就上网查资料、翻书。好歹囫囵吞枣的全部看完了,也是收获颇丰。 (以下内容纯属本人胡原创 2015-01-18 15:59:03 · 1623 阅读 · 0 评论 -
word2vec 中文训练小试牛刀
word2vec 中文训练小试牛刀所用语料: 1998年人民日报语料,北京大学提供。 测试环境: Ubunt 14.10下载好的语料已经是分好词的,把词性标注去掉就直接用作词向量的训练了。总大小 8.2 MB。由于训练语料库的特殊性,算出来的 distance 很有意思,如下:原创 2015-02-09 00:36:22 · 741 阅读 · 1 评论 -
NLP Paper Crawler
NLP Paper Crawler一个简单的爬虫程序,主要针对自然语言处理方向的学者方便获取 Aclweb.org 上面与研究方向相关的论文。自己在 heyuce 师兄的 1.0 版本的基础上加上了 GUI 界面以及多线程下载。用 Python 2 写的,基于 PyQt4 的可视化界面。原创 2015-02-18 02:37:32 · 515 阅读 · 0 评论 -
斯坦福大学自然语言处理第五课“拼写纠错(Spelling Correction)”
一、课程介绍斯坦福大学于2012年3月在Coursera启动了在线自然语言处理课程,由NLP领域大牛Dan Jurafsky 和 Chirs Manning教授授课:https://class.coursera.org/nlp/以下是本课程的学习笔记,以课程PPT/PDF为主,其他参考资料为辅,融入个人拓展、注解,抛砖引玉,欢迎大家在“我爱公开课”上一起探讨学习。课转载 2015-01-22 14:44:16 · 1859 阅读 · 0 评论