自然语言处理(natural language processing)
NLP=NLU(nature language understanding)+NLG(nature language generate)即自然语言处理是先理解自然语言,然后根据理解生成回复
目前领域面临的问题:一词多义(ambiguity)
NLP的维度
由底层到高层的过程:
- 声音:最底层的形式
- 单词(morphology):分词(token),POS词性标注(part-of-speech),NER命名体识别(named entity recognition)
- 句子结构(syntax):句法分析,依存句法
- 语义(semantic):理解语句的含义
NLP项目的实验流程
- 原始文本
- 分词及相关技术(NLP+词法系列(一)︱中文分词技术小结、几大分词引擎的介绍与比较包括常见的分词工具)
- 清洗(标点符号的移除/停用词的移除/低频词的移除)最全中文停用词表整理(1893个)英文 停用词 词典,停用词需要根据自己的场景进行自定义修改.
- 标准化,一般是针对英文有stemming和lemmatization. 词形还原(lemmatization),是把一个任何形式的语言词汇还原为一般形式(能表达完整语义),而词干提取(stemming)是抽取词的词干或词根形式(不一定能够表达完整语义)是基于一系列的提取规则实现的
- 特征提取,将第4步获取的词转换为向量形式(机器可识别的形式).例如tf-idf,woed2Vec等,tf-idf的计算过程
- 建模
- 评估模型
个人整理笔记,方便复习,若侵权,请联系。
附贪心学院课程链接: https://www.greedyai.com/courseinfor/105