网上可供下载的重要数据大整理

目前网上可供下载的数据众多,但是内容庞杂,我把其中比较有用的数据找了出来。 
  
wiki系: 
wikipedia大家都不陌生,它的下载地址是: http://dumps.wikimedia.org/  , 这里有详细介绍: http://en.wikipedia.org/wiki/Wikipedia:Database_download  
但是wikipedia只是Wikimedia基金会的一个子项目,wikimedia下面还有多个其他的重要项目,包括: 
wiktionary    一个语义化的关联词典,形式上类似于wordnet 
wikiquote    收录各种名人名言 
Wikibooks    免费的教科 书和手册 
Wikinews    大量的新闻故事 
Wikiversity    免费的教育材料 
Wikisour ce    免费的文本内容 
上述的这些内容,都可以通过 http://dumps.wikimedia.org/  下载到。 
还有一些小型的wiki项目,比如: 
http://simple.wikipedia.org     使用Basic Englis h写的wiki,给儿童和初学者看 
http://simple.wiktionary.org     使用Basic English写的wiktionary 
  
wikipedia的数据处理有很多方式,我比较推崇这两个: 
jwpl:     http://code.google.com/p/jwpl/  
wikipedia-miner:    http://wikipedia-miner.cms.waikato.ac.nz/wiki/  
  
下面我介绍下另一个商业化的wiki网站: http://www.wikia.com   这个网站上用户可以创建单独的维基网站,下面是排名前250位wikia网站: 
http://wikis.wikia.com/wiki/List_of_Wikia_wikis  
wikia上的资源也可供下载: http://community.wikia.com/wiki/Help:Database_download  
  
Freebase: 
freebase是啥就不解释了,下面给出数据的下载地址: 
http://wiki.freebase.com/wiki/Data_dumps     freebase自身的数据 
http://wiki.freebase.com/wiki/WEX     freebase从wikipedia中提取的数据 
  
YAGO2: 
http://www.mpi-inf.mpg.de/yago-naga/yago/  
  
dbpedia: 
http://www.dbpedia.org  
  
如果要找LinkedData,可以来这里: http://www.thedatahub.org     这里收集了很多Linked Data 
http://linkeddata.org/     这里有一张图,给出了各种linkeddata的关系和影响力。 
  
如果要找各种网上的api,可以来这里: http://www.programmableweb.com      
现在外国政府纷纷对外公开数据,下面是几个政府的开放数据集: 
http://data.gov.au     澳大利亚 
http://data.dc.gov     美国哥伦比亚州的 
http://www.data.gov     美国 
http://data.gov.uk     英国 
http://databases.lapl.org/     洛杉矶地区的开放数据集,知道硅谷为啥这么牛了吧 
http://www.gov.hk/en/theme/psi/welcome         香港政府也公开了很多数据 
对比一下,外国政府做了这么多实事,人民大会堂里的那些酒囊饭袋们都在干什么? 
  
http://lexsrv3.nlm.nih.gov/LexSysGroup/Projects/lexAccess/current/web/download.html     美国国家卫生署发布的词表 
http://www.census.gov/genealogy/www/data/2000surnames/index.html     美国统计局的姓名数据 
https://www.cia.gov/library/publications/download/     美国中央情报局发布的factbook,介绍了世界各国情况 
连卫生署,统计局和中情局这种单位都为美国的信息建设做出了这么多的贡献,我们应该知道自己跟美帝的差距有多大了 吧。 
  
叙词表: 
http://www.nlm.nih.gov/mesh/filelist.html     mesh,关于医学的受控词表 
http://id.loc.gov/download/             美国国会图书馆发布的叙词表 
  
一些三元组数据: 
http://www.cs.utexas.edu/users/pclark/dart/     采集自BNC(英国国家语料库)和Reuters,2300万条 
http://reverb.cs.washington.edu/         华盛顿大学的项目,1500万条 
http://www.cs.washington.edu/research/sherlock-hornclauses/     大约有200-300万条数据 
http://www.cs.rochester.edu/research/knext     有535万条数据,来自BNC和布朗语料库 
http://rtw.ml.cmu.edu/rtw/resources         readtheweb项目,数据量较小 
  
机读词典: 
http://wordnet.princeton.edu/             英语的wordnet 
http://nlpwww.nict.go.jp/wn-ja/index.en.html     日语的wordnet 
http://alpage.inria.fr/~sagot/wolf-en.html     法语的wordnet 
http://wordnet.ru/                 俄罗斯的wordnet 
http://cl.haifa.ac.il/projects/mwn/index.shtml     希伯来语的wordnet 
http://wordnet.dk/dannet/menu?item=2         丹麦语的wordnet 
http://grial.uab.es/sensem/download?idioma=en     西班牙语的wordnet 
http://www.ling.helsinki.fi/en/lt/research/finnwordnet/download.shtml     芬兰语的wordnet 
这些不同版本的wordnet都是免费下载的。可恨中国泱泱五千年的文明古国,文献典故浩如烟海,竟连一份免费且公开的机读词典都没有。这是汉语的耻辱,中国的耻辱,也是中华民族的耻辱。特别是中科院计算所和自动化所的人们,你们觉得呢?(顺祝hownet生意兴隆,越卖越好) 
  
http://dico.fj.free.fr/dico.php         日法词典 
http://www.csse.monash.edu.au/~jwb/edict.html     日英词典 
http://cc-cedict.org/wiki/start      中文到英文的词典,终于出来中文的了,可惜是外国人搞出来的。 
https://framenet.icsi.berkeley.edu     基于框架语义学的东东,恐怕不能算词典,不过没地儿放了。 
  
语料库: 
http://opus.lingfil.uu.se/     开放的平行语料库 
http://opus.lingfil.uu.se/OpenSubtitles_v2.php     大量电影字幕的下载地址 
http://www.statmt.org/europarl     欧洲议会的平行语料库 
http://www.anc.org/OANC/     开放的美国国家语料库 
  
http://snap.stanford.edu/data/     斯坦福大学的SNAP项目,抓了很多数据,不过时间较早,只有研究价值 
  

上面所列出的数据大多是英文的,中文的可供下载的数据少到可以忽略不计。此种局面估计十年内不会改变


转载自http://www.newsmth.net/nForum/article/NLP/13477

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值