前文再续,书接上一回。
今天是空间属性一体化全文检索系统的第三节,从今天开始会用好几节的内容来讲讲系统的关键技术与实现中。这一节主要讲自然语言处理。
在开讲之前,给大家先吃一个定心丸,自然语言处理虽然设计很多复杂的技术和算法,但是如果你不想搞得那么复杂的话,是可以直接依托Elasticsearch提供的插件来实现,完全不用自己做任何事情,当然你需要搞得更加风流倜傥的话,也可以自己花式使用各种强大的算法和功能。
作为全文检索基本功能,自然语言处理是必备的功能。自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。
当然,我们这里不做自然语言的研究,我们仅需要去使用它而已。
上面所罗列的是自然语言处理目前的主流技术和应用,其中有一些在全文检索中并用不到,比如情感分析……所以我在上面用黄色的圈标出了我们重点需要关注几种技术。
第一就是中文分词。分词是将连