最近处理藏语语料的时候找到了李亚超老师的TIP-LAS,详细介绍可见论文: TIP-LAS:一个开源的藏文分词词性标注系统
这个工具可以对藏语进行分词、词性标注处理。只是使用时遇到了一些问题,在此记录。
1.安装
论文中给出的github项目地址已经失效,现在的下载地址可见:TIP-LAS: An open source toolkit for Tibetan word segmentation and part of speech tagging。
安装方法已经在文档中详细写出,我是在Linux环境下使用的此工具,也就是进入解压后的主目录然后使用make
命令进行编译即可,但是在编译最后一个文件的时候出现了错误:
g++ -g -o ./tip-las utility/SentenceSplit.o utility/StringOperation.o utility/POSExtract.o utility/StringSplit.o utility/StringType.o utility/TextClassification.o utility/Tokenize.o taggin
g/Sample.o tagging/Model.o tagging/Decoder.o tagging/Perceptron.o Formatting.o Las.o Main.o -lpthread -ldl
/usr/bin/ld:无法打开输出文件 ./tip-las:是一个目录
解决方法: 在解压后的文件里,会看到一个