贪心学院—自然语言处理—基础介绍

自然语言处理(natural language processing)

NLP=NLU(nature language understanding)+NLG(nature language generate)即自然语言处理是先理解自然语言,然后根据理解生成回复

目前领域面临的问题:一词多义(ambiguity)

NLP的维度

由底层到高层的过程:

  1. 声音:最底层的形式
  2. 单词(morphology):分词(token),POS词性标注(part-of-speech)NER命名体识别(named entity recognition)
  3. 句子结构(syntax):句法分析依存句法
  4. 语义(semantic):理解语句的含义

NLP项目的实验流程

  1. 原始文本
  2. 分词及相关技术(NLP+词法系列(一)︱中文分词技术小结、几大分词引擎的介绍与比较包括常见的分词工具)
  3. 清洗(标点符号的移除/停用词的移除/低频词的移除)最全中文停用词表整理(1893个)英文 停用词 词典,停用词需要根据自己的场景进行自定义修改.
  4. 标准化,一般是针对英文有stemming和lemmatization. 词形还原(lemmatization),是把一个任何形式的语言词汇还原为一般形式(能表达完整语义),而词干提取(stemming)是抽取词的词干或词根形式(不一定能够表达完整语义)是基于一系列的提取规则实现的
  5. 特征提取,将第4步获取的词转换为向量形式(机器可识别的形式).例如tf-idfwoed2Vec等,tf-idf的计算过程
  6. 建模
  7. 评估模型

个人整理笔记,方便复习,若侵权,请联系。
附贪心学院课程链接: https://www.greedyai.com/courseinfor/105

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值