自然语言处理
文章平均质量分 79
nciaebupt
学生,BUPT,ML,NLP,IR
展开
-
WordNet-based semantic similarity measurement
WordNet-based semantic similarity measurement(http://www.cppblog.com/baby-fly/archive/2010/03/19/110111.html)Download source from Google Code repository(See the article on how to get a w转载 2011-10-30 17:40:40 · 3412 阅读 · 0 评论 -
wget 下载网站的指定目录
zz from http://www.umang.cn/post/80/ 1、 安装wget 网址:http://gnuwin32.sourceforge.net/packages/wget.htmhttp://downloads.sourceforge.net/gnuwin32/wget-1.11.4-1-setup.exe双击安装2、系统环境转载 2013-08-01 12:48:28 · 1420 阅读 · 0 评论 -
最大熵算法笔记
最大熵算法笔记 最大熵,就是要保留全部的不确定性,将风险降到最小,从信息论的角度讲,就是保留了最大的不确定性。 最大熵原理指出,当我们需要对一个随机事件的概率分布进行预测时,我们的预测应当满足全部已知的条件,而对未知的情况不要做任何主观假设。在这种情况下,概率分布最均匀,预测的风险最小。因为这时概率分布的信息熵最大,所以人们称这种模型叫"最大熵模型"。转载 2013-02-22 14:47:18 · 3623 阅读 · 0 评论 -
Hunspell API C++
Hunspell 是一个拼写检查器,OpenOffice 和 Firefox 以及 Thunderbird 默认的都是使用这个拼写检查器。#include /* or */#include //初始化函数Hunspell(const char *affpath,const char *dpath);Hunspell(const char *affpath,const ch原创 2012-09-19 11:15:39 · 1716 阅读 · 0 评论 -
编辑距离(Levenshtein Distance)
搞自然语言处理的应该不会对这个概念感到陌生,编辑距离就是用来计算从原串(s)转换到目标串(t)所需要的最少的插入,删除和替换的数目,在NLP中应用比较广泛,如一些评测方法中就用到了(wer,mWer等),同时也常用来计算你对原文本所作的改动数。编辑距离的算法是首先由俄国科学家Levenshtein提出的,故又叫Levenshtein Distance。Levenshtein distanc原创 2012-05-16 10:08:05 · 925 阅读 · 0 评论 -
nltk安装 linux
首先安装python;这里最好使用python2.7.3,否则若使用高版本,使用nltk时会出现问题安装nltk将要用到的YAML:Ddownload and InstallationThe current stable release of PyYAML: 3.10.Download links:TAR.GZ package: http://pyyam原创 2012-04-20 09:38:19 · 3569 阅读 · 1 评论 -
nltk - problems solved
1. Installationhttp://www.nltk.org/download The numpy and yaml need be installed first, all the three modules are installed from source.That's quite easy to install these modules, just download转载 2012-04-20 11:44:13 · 2082 阅读 · 0 评论 -
網頁抓取與分析
7-1 網頁抓取與分析:入門篇Perl 在 Web 程式設計與應用的用途可以大略分為三方面:用於 CGI(Common Gateway Interface)程式設計,亦即在伺服器端使用 Perl 程式來接收使用者由網頁中的表單(Forms)所填寫的資料,並回覆適當的訊息。用於 Web Client Programming,亦即使用在用戶端的 Perl 程式,來抓取所需的網頁或其他網转载 2012-04-25 14:31:57 · 1441 阅读 · 0 评论 -
判别模型 和 生成模型
【摘要】 - 生成模型:无穷样本==》概率密度模型 = 产生模型==》预测 - 判别模型:有限样本==》判别函数 = 预测模型==》预测【简介】简单的说,假设o是观察值,q是模型。如果对P(o|q)建模,就是Generative模型。其基本思想是首先建立样本的概率密度模型,再利用模型进行推理预测。要求已知样本无穷或尽可能的大限制。这种方法一般建立在统计力学和转载 2012-04-05 17:51:55 · 562 阅读 · 0 评论 -
对Python中文分词模块结巴分词算法过程的理解和分析
zz from http://www.ttsgs.com/2013/06/16/%E5%AF%B9python%E4%B8%AD%E6%96%87%E5%88%86%E8%AF%8D%E6%A8%A1%E5%9D%97%E7%BB%93%E5%B7%B4%E5%88%86%E8%AF%8D%E7%AE%97%E6%B3%95%E8%BF%87%E7%A8%8B%E7%9A%84%E7%90%86转载 2013-11-26 15:25:33 · 1772 阅读 · 0 评论