【自然语言处理】英文开源工具汇总()

本博客主要是对网络上的一些关于 英文自然语言处理开源工具的博客进行整理、汇总,如果有涉及到您的知识产权等,请联系本人已进行修改,也欢迎广大读者进行指正以及补充。

本博客将尽量从工具的使用语言、功能等方面进行汇总介绍。

1 斯坦福大学

语言:Java

功能:分词、词性标注、命名实体识别、语法解析、分类。

介绍:Stanford NLP Group是斯坦福大学自然语言处理的团队,开发了多个NLP工具,官网网址。由于该团队将该开源分为多个子模块,以下将逐一进行介绍。

1.1 Stanford Word Segmenter

介绍:采用CRF(条件随机场)算法进行分词,也是基于Java开发的,同时可以支持中文和Arabic,官方要求Java版本1.6以上,推荐内存至少1G。下载地址

示例代码:
[java]  view plain  copy
  1. //设置分词器属性。    
  2.    Properties props = new Properties();    
  3. //字典文件地址,可以用绝对路径,如d:/data    
  4.    props.setProperty("sighanCorporaDict""data");    
  5. //字典压缩包地址,可以用绝对路径    
  6.    props.setProperty("serDictionary","data/dict-chris6.ser.gz");    
  7. //输入文字的编码;    
  8.    props.setProperty("inputEncoding""UTF-8");    
  9.    props.setProperty("sighanPostProcessing""true");    
  10. //初始化分词器,    
  11.    CRFClassifier classifier = new CRFClassifier(props);    
  12. //从持久化文件中加载分词器设置;    
  13.    classifier.loadClassifierNoExceptions("data/ctb.gz", props);    
  14.    // flags must be re-set after data is loaded    
  15.    classifier.flags.setProperties(props);    
  16. //分词    
  17.    List words = classifier.segmentString("语句内容");  

1.2 Stanford POS Tagger

介绍: 采用Java编写的面向英文、中文、法语、阿拉伯语、德语的命名实体识别工具,下载地址

1.3 Stanford Named Entity Recognizer

介绍:采用条件随机场模型的命名实体工具,下载地址

1.4 Stanford Parser

介绍:进行语法分析的工具,支持英文、中文、阿拉伯文和法语。下载地址

1.5 Stanford Classifier

介绍:采用Java编写的分类器,下载地址

最后附上关于中文分词器性能比较的一篇文章(2014.05.27更新)

1.6 Stanford CoreNLP

功能:分词、词性标注、命名实体识别、语法分析

介绍:采用Java编写的面向英文的处理工具,下载网址

用户评价:采用它进行英语单词的词性还原,具体应用详见文章《采用Stanford CoreNLP实现英文单词词形还原》




















  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值