NLP介绍
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。因而它是计算机科学的一部分。
自然语言处理(NLP)是计算机科学,人工智能,语言学关注计算机和人类(自然)语言之间的相互作用的领域。
word2vec
word2vec是一个用来学习单词词向量的模型,最终所有的单词都用向量进行表示,这些向量因为单词本身的语义、结构等关系也产生关系。
1.大量文本,每一个词都有一个向量表示
2.遍历文中每一个单词的位置,有中心词c和背景词o
3.用c、o的词向量之间的相似性来计算p(o|c)或者p(c|o)
4.调整c、o的词向量,实现上述概率最大化
目标函数,从大量现有文本语料中学习词与词之间的联系,希望常用的表达出现的概率最大。