从基于语义语法进行自然语言处理转变为基于统计的自然语言处理方法,例如莱特兄弟研制出双翼机不是依靠仿生学而是利用了空气动力学,可以这么理解,我们可以从自然中发现很多人类可以利用的现象,在真正实现时我们不能局限于从生物本能的角度去分析问题,应该及时从更加科学,深刻的角度去分析问题,比如我们可以把人类语言中自然的语法现象,日常使用的词汇、句法等信息转化为字与字之间的相关性,词与词之间的相关性也就是用大量的数据经过统计来发现人类常用的“固定搭配”来是计算机能够对自然语言信息进行正确的排序。
在做事情是一开始不必追求大而全,完美的解决方案,耗时且效果很可能并不理想,先实现简单,实用的方案来解决最重要的部分,这样可以达到事半功倍的效果,在此基础上再去进行优化并解决剩余的问题。在面对棘手的问题时,要发觉简单方法的有效性。
在计算机中处理诸多问题时,有这样一种思维模式,将需要用计算机来处理的对象量化,就可以用计算机可以理解的模型,数学公式等等来讲问题解决;例如,将自然语言处理中的语法,语义,固定搭配量化为相关性,将新闻处理中的每篇新闻文章量化为一个向量(新闻中的主体茨维向量各个维度的坐标),这样就可以用数学中的余弦定理解决新闻相关性的问题。
信息的作用在于消除不确定性,自然语言处理的大量问题就是找相关的信息。