由于 近十年来大数据的发展 。企业现在每天都需要分析来自各种来源的大量数据。
自然语言处理(NLP)是人工智能领域的研究领域,致力于处理和使用文本和语音数据来创建智能机器并创建见解。
预处理技术
为了准备用于推理的文本数据,一些最常用的技术是:
标记化: 用于将输入文本分割成其组成词(标记)。这样,将我们的数据转换为数字格式变得更加容易。
停用词移除: 用于从我们的文本中移除所有介词(例如,“一个”,“这个”等),这些介词只能被视为我们数据中的噪声源(因为它们不带有其他附加词)我们数据中的信息性信息)。
词干: 最终用于去除数据中的所有词缀(例如前缀或后缀)。这样,实际上,对于我们的算法而言,将其视为实际上具有相似含义(例如,有见识的见解)的专有单词会变得容易得多。
使用标准的Python NLP库(例如NLTK 和 Spacy),所有这些预处理技术都可以轻松地应用于不同类型的文本 。
另外,为了推断语言的语法和文本结构,我们可以利用诸如词性(POS)标记和浅解析(图1)之类的技术。实际上,使用这些技术,我们可以使用单词的词法类别(基于短语语法上下文)显式标记每个单词。
建模技术
言语包
Bag of Words是一种用于自然语言处理和 计算机视觉的技术 ,目的是为训练分类器创建新功能(图2)。通过构建对文档中所有单词进行计数的直方图来实现此技术(不考虑单词顺序和语法规则)。
可能会限制这项技术功效的主要问题之一是在我们的课文中出现介词,代词,冠词等。实际上,这些全都可以被认为是在我们的文本中经常出现的单词,即使不一定真正了解我们文档的主要特征和主题是什么