第一章NLP基础
搜索微信公众号:‘AI-ming3526’或者’计算机视觉这件小事’ 获取更多AI干货
github:https://github.com/aimi-cn/AILearners
在本章你将学到NLP(自然语言处理)相关的基础知识。
本章要点包括:
- NLP基础概念
- NLP的发展与应用
- NLP常用术语以及扩展介绍
1.1什么是NLP
1.1.1NLP的概念
NLP(Natural Language Processing,自然语言处理)是计算机科学领域以及人工智能领域的一个重要的研究方向,它研究用计算机来处理、理解以及运用人类语言(如中文、英文等),达到人与计算机之间进行有效通讯。所谓“自然”乃是寓意自然进化形成,为了区分一些人造语言(如:c++、java等人为设计的语言)这些年, NLP 研究取得了长足的进步,逐渐发展成独立的学科,从自然语言的角度出发,NLP 基本可以分为两个部分 自然语言处理以及自然语言生成,演化为理解和生成文本的任务,如图1-1 所示
自然语言的理解是个综合的系统工程,它又包含了很多细分学科,有代表声音的音系学,代表构词法的词态学代表语句结构的句法学,代表理解的语义句法学和语用学。
- 音系学:指代语言中发音的系统化组织
- 词态学 :研究单词构成以及相互之间的关系
- 句法学: 给定文本的哪部分是语法正确的
- 语义学: 给定文本的含义是什么
- 语用学:文本的目的是什么?
语言理解涉及语言、语境和各种语言形式的学科 而自然语言生成( Naturnguage Generation, NLG )恰恰相反,从结构化数据中以读取的方式自动生成文本,该过程主要三个阶段:文本规划(完成结构化数据中的基础内容规划)、语句规划(构 数据中组合语句来表达信息流)、实现(产生语法通顺的语句来表达文本)
1.1.2 NLP 的研究任务
NLP 可以被应用于很多领域,这里大概总结出以下几种通用的应用:
- 机器翻译:计算机具备将 种语言翻译成另一种语言的能力
- 情感分析:计算能够判断用户评论是否积极
- 智能问答:计算机能够正确回答输入的问题
- 文摘生成:计算机能够准确归纳、总结并产生文本摘要
- 文本分类:计算机能够采集各种文章, 进行主题分析,从而进行自动分类
- 舆论分析:计算机能够判断目前舆论的导向
- 知识图谱:知识点相互连接而成的语义网络
机器翻译是自然语言处理中最为人所熟知的场景,国内外有很多比较成熟的机器翻译产品,比如百度翻译 Google 翻译等,还有提供支持语音输入的多国语言互译的产品(比如科大讯飞就出了一款翻译机)。
情感分析在一些评论网站比较有用,比如某餐饮网站的评论中会有非常多拔草的客人的评价,如果一眼扫过去满眼都是又贵又难吃,那谁还想去呢?另外有些商家为了获取大 的客户不惜雇佣水军灌水,那就可以通过自然语言处理来做水军识别,情感分析来分析总体用户评价是积极还是消极。
智能问答在一些电商网站有非常实际的价值,比如代替人工充当客服角色,有很多基本而且重复的问题 ,其实并不需要人工客服来解决,通过智能问答系统可以筛选掉大量重复的问题,使得人工座席能更好地服务客户(如图灵机器人)。
文摘生成利用计算机自动地从原始文献中摘取文摘,全面准确地反映某 文献的中心内容 这个技术可以帮助人们节省大 的时间成本,而且效率更高。
文本分类是机器对文本按照 定的分类体系自动标注类别的过程。举一个例子,垃圾邮件是 种令人头痛的顽症,困扰着非常多的互联网用户 2002 年ÿ