NLP的一些知识_nlp.vocab-CSDN博客

本文链接：https://blog.csdn.net/Tingsie/article/details/107808956

本文介绍了自然语言处理中的几个关键概念：Embedding作为单词到向量的映射，有助于降低维度并保持结构；分词在中文中尤为重要，常用方法包括基于字典和统计模型；命名实体识别旨在识别文本中的特定实体，如人名、地名等。此外，还讨论了epoch、batchsize、Iterations和学习率在模型训练中的作用，以及sigmoid和softmax在分类问题中的应用。

摘要由CSDN通过智能技术生成

Embedding

Embedding在数学上表示一个maping, f: X -> Y，也就是一个function，其中该函数是injective（就是我们所说的单射函数，每个Y只有唯一的X对应，反之亦然）和structure-preserving (结构保存，比如在X所属的空间上X1 < X2,那么映射后在Y所属空间上同理 Y1 < Y2)。那么对于word embedding，就是将单词word映射到另外一个空间，其中这个映射具有injective和structure-preserving的特点。通俗的翻译可以认为是单词嵌入，就是把X所属空间的单词映射为到Y空间的多维向量，那么该多维向量相当于嵌入到Y所属空间中，一个萝卜一个坑。word embedding，就是找到一个映射或者函数，生成在一个新的空间上的表达，该表达就是word representation。推广开来，还有image embedding, video embedding, 都是一种将源数据映射到另外一个空间

Embedding 是一个将离散变量转为连续向量表示的一个方式。在神经网络中，embedding 是非常有用的，因为它不光可以减少离散变量的空间维数，同时还可以有意义的表示该变量。

分词

分词（Segment）：中英文都存在分词的问题，不过相对来说，英文单词与单词之间本来就有空格进行分割，所以处理起来相对方便。但是中文书写是没有分隔符的，所以分词的问题就比较突出。分词常用的手段可以是基于字典的最长串匹配，据说可以解决85%的问题，但是歧义分词很难。另外就是当下主流的统计机器学习的办法，利用HMM/CRF这一类的模型解决