中文词性标注以及命名实体识别
(2011-02-22 16:49:24)
目前在中文词性标注(Part-of-speech Tagging)方面做的比较好的有:
中科院的ICTCLAS:
http://www.nlp.org.cn/project/project.php?proj_id=6
Stanford的
"Stanford POS Tagger":
http://nlp.stanford.edu/software/tagger.shtml
其中Stanford可以支持中文和英文的词性标注,它也有一个基于“条件随机场”算法的中文分词模块:http://nlp.stanford.edu/software/segmenter.shtml
而哈工大的资料除了提供给科研不对外开放,但在命名实体识别上据说是做得最好的,中科院的ICTCLAS有详细的文档并且有开源版本。先做一个记录,有空比较一下。
而哈工大的资料除了提供给科研不对外开放,但在命名实体识别上据说是做得最好的,中科院的ICTCLAS有详细的文档并且有开源版本。先做一个记录,有空比较一下。