NLP 自然语言处理的过程主要包括以下几个步骤:
- 获取语料:语料是 NLP 任务研究的内容,通常用一个文本集作为语料库。语料可以通过已有数据、公开数据集、爬虫抓取等方式获取。
- 数据预处理:这个步骤是为了让机器能够更好地理解文本数据,通常包括分词、词性标注、去停用词等操作。分词就是将连续的自然语言文本,切分成具有语义合理性和完备性的词汇序列。词性标注就是为分词后的每个词标注词性。去停用词则是去掉对文本特征没有任何贡献作用的字词。
- 特征工程:这个步骤主要是将分词表示成计算机识别的计算类型,一般为向量。常用的表示模型有词袋模型、向量模型等。
以上信息仅供参考,如有需要,建议查阅相关网站。