Python自然语言处理核心技术与算法(持续更新 ing)

本文介绍了Python在自然语言处理(NLP)中的基础知识,包括NLP的定义、分类和研究任务。深入讲解了正则表达式在NLP中的应用,以及Numpy在处理NLP数据时的角色。此外,文章还探讨了中文分词技术,如规则分词和统计分词,并提到了jieba分词工具。
摘要由CSDN通过智能技术生成

第一章 NLP基础

1.1 什么是NLP
  • NLP的概念
    它是计算机科学领域以及人工智能领域一个重要的研究方向,它研究用计算机来处理、理解以及运用人类语言达到人与计算机之间进行有效的通讯
  • NLP的分类
    NLP包含自然语言生成与自然语言理解
    • 自然语言生成
      • 自然语言文本:包含文本规划、语句规划、实现三个阶段
    • 自然语言理解
      • 音系学:指代语言中发音的系统化组织
      • 词态学:研究单词构成以及相互之间的关系
      • 句法学:给定文本哪部分的语法是正确的
      • 语义句法学:给定文本的含义是什么
      • 语用学:文本的目的是什么
  • NLP的研究任务
    • 机器翻译
      计算机具备将一种语言翻译成另一种语言的能力
    • 情感分析
      计算机能够判断用户的评论是否积极
    • 智能回答
      计算机能够正确回答输入的问题
    • 文摘生成
      计算机能够准确归纳、总结并产生文本摘要
    • 文本分类
      计算机能够采集各种文章,进行主题分析,从而进行分类
    • 舆论分析
      计算机能够判断目前舆论的导向
    • 知识图谱
      知识点相互连接而成的语义网络
1.2 NLP相关知识的构成
  • 基本术语
    • 分词(segment)
      词是最小的能够独立活动的有意义的语言成分,英文单词之间是以空格作为自然分界符,而中文词语分析是中文分析的基础和关键。分词常用的手段是基于字典的最长串匹配
    • 词性标注(part-of-speech tagging)
      基于机器学习的方法里,往往需要对词的词性进行标注。词性一般指名词、动词、形容词等。标注的目的是表征词的一种隐藏状态,隐藏状态构成的转移就构成了状态转移序列
    • 命名实体识别(NER,Named Entity Recognition)
      是指从文本中识别具有特定类别的实体(通常是名词),例如人名、地名、机构名、专有名词等
    • 句法分析(syntax parsing)
      句法分析往往是一种基于规则的专家系统,也可用统计学的方法进行,句法分析的目的是解析句子中各个成分的依赖关系
    • 指代消解(anaphora resolution)
      中文中代词出现频率很高,它的作用是用来表征前文出现过的人名、地名等
    • 情感识别(emotion recognition)
      本质是分类问题,情感一般分类为正面、反面,也可以分为正面、反面、中性。通常是基于词袋模型+分类器,或者是现在流行的词向量模型+RNN
    • 纠错(correction)
      自动纠错在搜索技术以及输入法中利用的很多。纠错系统可以基于N-Gram,也可以通过字典树、有限状态机等方法
    • 问答系统(QA system)
      类似机器人的人工智能系统。往往需要语音识别、合成,自然语言理解、知识图谱等多项技术配合
  • 知识结构
    • 语义分析
      针对目标句子,进行各种句法分析,如分词、词性标记、命名实体识别及链接、句法分析、语义角色识别和多义词消歧等
    • 信息抽取
      抽取目标文本中的主要信息,主要是了解是谁、于何时、为何、对谁、做了何事、产生了有什么结果,涉及实体识别、时间抽取、因果关系抽取等多项关键技术
    • 情感分析
      情感一般分类为正面、反面,也可以分为正面、反面、中性。通常是基于词袋模型+分类器,或者是现在流行的词向量模型+RNN
    • 文本挖掘
      主要包含对文本的聚类、分类、信息抽取、摘要、情感分析以及对挖掘的信息和知识的可视化、交互式的界面
    • 机器翻译
      将输入的源语言文本通过自动翻译转化为另一种语言的文本,根据输入的数据类型不同,可细分为文本翻译、语音翻译、手语翻译、图形翻译等。机器翻译从基于规则到基于统计到现在的基于深度学习的方法,逐渐形成一种比较严谨的方法体系
    • 信息检索
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值