自然语言处理是如今计算机科学领域比较火热的一个方向,其也确实有很大的应用场景。前面说过,我参加了微软编程之美的比赛,这个比赛其所基于的就是自然语言处理。我本身并不是学自然语言处理的,甚至连这门课也没有选过,可是为了完成资格赛我自己在网上找了一些资料。
时间所限,也是能力所限,我当然不会自己去实现一些诸如中文分词与词性标注的自然语言处理算法。自然的,我想到了在网上找一些开源包。我主要考虑的是三个包,首先是斯坦福大学的一系列自然语言处理工具,作为国际知名高校自然人们都会认为斯坦福的技术会更高一点,可是我在网上并没有找到太多的使用文档,而且软件也比较大,简单使用也并不需要太高深的技术。然后呢,我又找到了哈工大的LTP,这个是我们自己学校的东西,而且也广受认可,所以天然的,我倾向于使用它。但是我发现LTP不是开源的,如果要索要代码还需要签署一些协议,哎。。。最后我选择使用复旦大学的自然语言处理开源包FNLP,它的优点在于获取方便,而且是比较轻量级的,简单使用比较方便。下面给出入门教程: