- 博客(26)
- 资源 (2)
- 收藏
- 关注
原创 WordNet--JWI( the MIT Java Wordnet Interface) 获取信息
首先要从http://wordnet.princeton.edu/上下载WordNet,支持Windows系统的最新版本是WordNet2.1,是可执行文件,下载之后双击安装就可以了,记住安装目录,以后会用到。我的安装目录是C:/Program Files/WordNet/2.1。然后下载MIT Java WordNet Interface,下载地址如下http://www.mit.edu/~
2015-01-19 10:27:59 1477 1
原创 linux 下安装 word2vec (python 版本)
1.安装pip : apt-get install python-pip1.安装 nose : pip install nose3. 安装 numpy: apt-get install python-numpy4.安装 scipy: apt-get install python-scipyimport numpyimport scipyimpor
2015-01-07 23:35:10 4250
原创 python中处理WordNet
python中处理WordNet>>>from nltk.corpus import wordnet as wn>>> wn.synsets('motorcar')>>> wn.synset('car.n.01').lemma_names2.5 WordNetWordNet is a semantically oriented dictionar
2014-12-13 21:20:51 5089
原创 CRF++ 0.58 在Windows中 运行与安装
可以选择example里的某个例子做测试,比如选chunking。将crf_learn.exe;crf_test.exe;libcrfpp.dll三个文件复制到到,含有exec.sh;template;test.data;train.data的文件夹(chunking)里。cmdcd进入该文件夹crf_learn template train.data model 训练
2014-11-24 09:24:21 8208 6
原创 Cyc简介
Cyc中的概念被称为“常量(constants)”。常量以"#$"开头并区分大小写。常量主要分为以下几类:个体,即individuals:例如 #$BillClinton 又如 #$France。集合,即Collections:例如 #$Tree-ThePlant (包含所有的树),又如 #$EquivalenceRelation (包含所有的等价关系)。集合中的个体被称为该集合的实例(i
2014-10-24 20:56:01 4674
原创 Protege4.2使用说明
Protege4.2使用说明 安装JDK1.6:下载资源进行安装,环境变量配置:变量名Java_home,变量值G:\Study\JDK1.6 安装protege_4.2_alpha:安装时软件会自动检测java虚拟机环境,将jdk安装路径G:\Study\JDK1.6下jre文件复制到G:\Study,即与JDK1.6文件夹同一级。开始安装,选择安装路径,生成文件物理位置,continue即
2014-08-30 15:51:08 4131 4
原创 eclipse中导入jena
Step 1 create a Java projectEclipse organizes files into projects, so we need a project for this tutorial. Depending on the plugins installed, Eclipse may show a large number of different types of
2014-08-30 10:46:27 2718 1
原创 国际语义评测SemEval
国际语义评测SemEval *SEM 2013是由ACL(Association for Computational Linguistics,国际计算语言学会)词汇和语义小组SIGLEX和SIGSEM组织的词汇与语义计算领域的国际性权威技术竞赛。从1998年开始举办,竞赛包括多方面不同的词汇语义评测任务,如文本语义相似度计算、Twitter语义分析、空间角色标注、组合名词的自由复述、
2014-08-24 13:26:24 5785
原创 远程连接服务器For Windows 2003 & 2008
远程连接服务器For Windows 2003 & 2008云服务器系统是windows系列的用户,可以使用自己电脑windows系统自带的“远程桌面连接”功能远程连接云服务器。Windows2003/2008系统自带正版激活,不收取你系统正版激活费用,同时 windows2003/2008系统默认允许最多2个session远程连接,如果您需要更多的新增连接数,需要您向微软单独购买远程
2014-08-23 16:35:35 628
原创 深入浅出微信公众平台实战开发(一)
《深入浅出微信公众平台实战开发(微网站、LBS云、Api接口调用、服务号高级接口)》课程讲师:易伟课程分类:PHP适合人群:初级课时数量:16课时用到技术:Api接口调用、lbs应用涉及项目:微网站本课程按知识点划分,共100小节,每小节时间不等,请学员注意! 一、本课程是怎么样的一门课程(全面介绍) 1.1、课程的背景
2014-08-12 20:23:32 1317
原创 Python 新手推荐书25本免费的Python电子书
对于 Python 新手应该从哪本开始Think StatsDive Into PythonA Byte Of PythonThink ComplexityDive Into Python 3DJANGO TUTORIALBuilding Skills In OOPPyramid For HumansFlask MicroframeworkBuild
2014-08-11 22:16:38 1457
原创 WordNet 简介
Wordnet是一个词典。每个词语(word)可能有多个不同的语义,对应不同的sense。而每个不同的语义(sense)又可能对应多个词,如topic和subject在某些情况下是同义的, 一个sense中的多个消除了多义性的词语叫做lemma。例如,“publish”是一个word,它可能有多个sense: 1. (39) print, publish -- (put int
2014-08-10 18:45:13 4770 1
原创 LDA
(一)LDA作用 传统判断两个文档相似性的方法是通过查看两个文档共同出现的单词的多少,如TF-IDF等,这种方法没有考虑到文字背后的语义关联,可能在两个文档共同出现的单词很少甚至没有,但两个文档是相似的。 举个例子,有两个句子分别如下: “乔布斯离我们而去了。” “苹果价格会不会
2014-08-08 10:11:20 978
原创 GIZA++实现了IBM模型1~5 IBM Model 1详解
GIZA++实现了IBM模型1~5的所有代码,在生成源语言与目标语言之间翻译概率的同时,也产生相应的副产品——“词对齐”。这个副产品成为各种统计机器翻译系统的基石,直到今天,大部分系统仍然首先使用GIZA++对大量平行语料进行词对齐。在阿拉伯语、中文等语言与印欧语系语言的对齐中错误率仍然很高。特别是中文,错误率常常达到30%以上。这里主要对GIZA++开源代码中的IBM model1实现部
2014-08-07 21:09:21 8988 1
原创 AdaBoost算法
AdaBoostAdaboost是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器 (强分类器)。其算法本身是通过改变数据分布来实现的,它根据每次训练集之中每个样本的分类是否正确,以及上次的总体分类的准确率,来确定每个样本的权值。将修改过权值的新数据集送给下层分类器进行训练,最后将每次训练得到的分类器最后融合起来,
2014-08-06 18:21:08 519
原创 Apriori算法
Apriori介绍Apriori算法使用频繁项集的先验知识,使用一种称作逐层搜索的迭代方法,k项集用于探索(k+1)项集。首先,通过扫描事务(交易)记录,找出所有的频繁1项集,该集合记做L1,然后利用L1找频繁2项集的集合L2,L2找L3,如此下去,直到不能再找到任何频繁k项集。最后再在所有的频繁集中找出强规则,即产生用户感兴趣的关联规则。其中,Apriori算法具有这样一条性质:
2014-08-06 17:12:02 782
原创 数据挖掘(Data Mining)
数据挖掘(Data Mining) 是有组织有目的地收集数据,通过分析数据使之成为信息,从而从大量数据中寻找潜在规律以形成规则或知识的技术。
2014-08-05 21:42:18 845
原创 统计机器翻译中的几篇经典文献
统计机器翻译中的几篇经典文献 MIT人工智能实验室的《如何做研究》建议阅读本领域中最本质的几篇论文:“如果你对AI的某个子领域感兴趣,向该领域的高年级研究生请教本领域最重要的十篇论文是什么”。阅读经典论文,对于了解感兴趣的领域非常重要。而关于统计机器翻译,最经典的几篇论文又是什么呢?以下是我根据自己的经验总结的几篇经典论文,如有遗漏,欢迎补充。1.A Statistical Ap
2014-08-03 20:39:28 1398 1
原创 机器翻译需要的软件 自然语言处理专业所涉及的软件
、第一个开源的统计机器翻译工具包——Egypt如前所述,Egypt是在1999年约翰霍普金斯大学统计机器翻译夏季讨论班上,由一些研究人员共同合作开发的统计机器翻译工具包。它包括4个模块:Whittle:语料库预处理模块;GIZA:用于从句子对齐的双语语料库中训练词语对齐;Cairo:词语对齐的可视化工具Decoder:解码器,即用来执行具体的翻译过程模块,这一模块没有开
2014-08-03 20:36:27 2820
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人