NLP
文章平均质量分 76
nlper
这个作者很懒,什么都没留下…
展开
-
字符编码详解及由来
很久很久以前,有一群人,他们决定用8个可以开合的晶体管来组合成不同的状态,以表示世界上的万物。他们看到8个开关状态是好的,于是他们把这称为"字节"。 再后来,他们又做了一些可以处理这些字节的机器,机器开动了,可以用字节来组合出很多状态,状态开始变来变去。他们看到这样是好的,于是它们就这机器称为"计算机"。 开始计算机只在美国用。八位的字节一共可以组合出256(2的8次方)种不同转载 2011-12-09 17:47:51 · 372 阅读 · 0 评论 -
文本分类、聚类的开源项目
http://mallet.cs.umass.edu/index.php/Similar_software From Mallet There are numerous other software packages relevant to machine learning and text that in various ways are related to MALLET: NLTK转载 2010-08-27 11:41:00 · 1301 阅读 · 0 评论 -
监督,非监督和强化学习
最近很多人在问监督学习、非监督学习和强化学习等等之间的关系,我简单地写一点。 机器学习中的方法或范式(paradigm)有很多种分类体系,例如从学习的方式分,有从例子中学习、类比学习、分析学习等,但一般来说,现在研究得最多、被认为最有用的是从例子中学习(learning fromexamples)。对从例子中学习,又有很多分类方法,例如从学习的主动性方面,可以分为主动学习(activelea转载 2010-05-14 14:23:00 · 1771 阅读 · 0 评论 -
SRILM 语言模型训练工具
1,下载 2,安装 make SRILM=$PWD 3,配置 将bin和bin/i686-m64添加到PATH环境变量中 4,测试 ./ngram-count -help 5,海量语料训练 由于对于大规模语料进行语言模型的训练,经常会导致内存问题。 经过测试,用srilm处理一个3G的语料,训练3元语言模型,32G内存根本就不够用。 解决方案:把文件给分开了,然后分别算原创 2013-09-09 11:06:56 · 2604 阅读 · 0 评论 -
mahout 聚类实战
0,mahout的安装与配置 mahout 0.8 1,准备数据 2503篇文本文件,存放在texts目录中 2,将文本文件转化为sequenceFile $ mahout seqdirectory -c utf8 -i texts -o seqfiles 3,将sequenceFile生成文本文件 $ mahout seqdumper -i seqfiles -o se原创 2013-09-05 11:08:56 · 1027 阅读 · 0 评论 -
Topic Model 与 LDA
参见:http://hi.baidu.com/ouyanggaoyan/item/5b5c01d4c518871cd78ed0d7#713670-tsina-1-29064-128ff9f28d958dae738be418601ffbcd原创 2014-02-13 14:14:14 · 750 阅读 · 0 评论 -
特征选择
-1. TF-IDF的误区 TF-IDF可以有效评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。因为它综合表征了该词在文档中的重要程度和文档区分度。但在文本分类中单纯使用TF-IDF来判断一个特征是否有区分度是不够的。 1)它没有考虑特征词在类间的分布。也就是说该选择的特征应该在某类出现多,而其它类出现少,即考察各类的文档频率的差异。如果一个特征词,在各个类间分布比较均匀,这样转载 2014-03-10 11:16:36 · 1081 阅读 · 0 评论 -
初学者如何查阅自然语言处理(NLP)领域学术资料
昨天实验室一位刚进组的同学发邮件来问我如何查找学术论文,这让我想起自己刚读研究生时茫然四顾的情形:看着学长们高谈阔论领域动态,却不知如何入门。经过研究生几年的耳濡目染,现在终于能自信地知道去哪儿了解最新科研动态了。我想这可能是初学者们共通的困惑,与其只告诉一个人知道,不如将这些Folk Knowledge写下来,来减少更多人的麻烦吧。当然,这个总结不过是一家之谈,只盼有人能从中获得一点点益处,受个转载 2014-11-05 16:02:13 · 683 阅读 · 0 评论