总结一下自己未来需要重点关注的插件/组件:
通用工具:
1. Regular Expression Annotator
可以使用其中的很多正则表达式
2. Dictionary Annotator
可以作为基本的标注工具
3. Hidden Markov Model Tagger Annotator
可以用来训练模型,并应用模型提供需要的服务
4. Lucene CAS indexer (Lucas)
未来肯定会用,是和其他项目的接口
5. Tika Annotator
可以用来做指定数据的解析器,xml,pdf,html
项目相关:
1. Concept Mapper Annotator
可以用于概念,实例的表示。和小丘相关
2. OpenCalais Annotator
这个东西其实是完全参考,用于发现概念之间的关系。OpenCalais背后的技术比这个解释器意义更大。
3. Configurable Feature Extractor Annotator
抽取信息是可以参考的一种方法,特别是在开放领域中抽取信息的时候
打包工具:
1. PEAR Packaging Maven Plugin
2. PEAR Packaging ANT Task
两者选一个就可以,具体哪一个可以用的时候再看