自然语言处理

640?wx_fmt=png

导言


自然语言处理是计算机科学、信息工程和人工智能的一个子领域,涉及计算机和人类语言之间的交互,通过计算机进行编程来处理和分析大量自然语言数据。

 
 
1Natural Language Processing(NLP) = Computer Science + AI + Computational Linguistics


换言之,自然语言处理是计算机软件理解人类语言的能力,它是人工智能的组成部分部分之一。


自然语言处理如理解人类语言的能力、理解匹配单词的同义词、语音识别、语音翻译,以及编写完整的、语法正确的句子和段落。

自然语言处理在各个领域的应用如下:

机器翻译


640?wx_fmt=jpeg


可用的信息量在互联网上不断增长,机器翻译通过以较低的成本翻译技术手册、支持内容或目录,帮助我们克服经常遇到的语言障碍。机器翻译技术面临的主要挑战不是翻译单词,而是理解句子的含义以提供准确的翻译。

640?wx_fmt=png

自动摘要


它将较大的文本缩小为较短的,但却构成了原始文档的缩写叙述表示。它从大量的文字中提取关键词,创建整篇文章的摘要。当我们需要从庞大的知识数据集中访问特定的、重要的信息时,信息过载才是我们面临的一个真正的问题。自动摘要不仅能够总结文档、信息的含义,而且对于理解数据内部的情感意义也起着非常重要的作用,例如从社交网站收集信息或数据。自动摘要主要用于提供新闻项目或博客的摘要,避免来自多个网站的重复内容,并且最大化的获取内容的不同之处。

640?wx_fmt=jpeg

情绪分析


640?wx_fmt=jpeg

情绪分析的目的是识别帖子或评论之间的情绪。许多跨国公司正在使用自然语言处理应用程序来检测互联网上的观点和情绪,以帮助他们了解客户对其产品和服务的看法,从而判断产品的口碑。除了能够进行简单的情绪分析之外,还能理解上下文中的情绪,以帮助我们更好的理解表达意见背后的内容,这个分析结果能够判断用户是否想要购买,它主要用于支持公司分析产品的大量评价信息,帮助顾客处理针对产品的评论。

文本分类


640?wx_fmt=jpeg

通过对文档、文本的分类,可以将预定义的类别分配给文档,并对其进行组织,以便帮助我们查找所需要的信息或简化某些活动。例如,文本分类的应用是电子邮件中的垃圾邮件过滤。

语音处理


640?wx_fmt=jpeg

  • 文本到语音:它将电子文本转换为数字语音,这有助于聋哑人社会;

  • 语音到文本:它将数字语音转换为文本;

  • 自动语音识别:将语音内容自动转录为电子文本;

  • 语音翻译:实时或离线将口语内容从一种语言翻译成另一种语言;

图像标题

640?wx_fmt=jpeg

图像字幕是生成图像的文本描述过程,它使用自然语言处理和计算机视觉来生成字幕。

信息提取


640?wx_fmt=jpeg

信息提取是从信息资源集合中获取与信息需求相关的系统资源的方式。搜索可以基于全文或其他内容的索引。信息提取是在文档中搜索信息、搜索文档本身,以及搜索描述数据的元数据以及文本、图像或声音数据库的科学。


例如:从电子邮件中提取核心内容

“我决定明天上午10点在实验室见面。

做什么:见面会

什么时间:上午10点

地点:实验室”

信息检索


640?wx_fmt=jpeg

信息检索涉及返回一组文档以响应用户查询。互联网搜索引擎使用信息检索系统,根据文档对他们的链接数量(例如Google的PageRank)以及搜索项的存在来对文档进行排名的方法。

搜索引擎和语义Web搜索


640?wx_fmt=jpeg

网络搜索引擎是设计用于在因特网上搜索信息的软件应用程序。搜索结果通常以一系列结果呈现,通常称为搜索引擎结果页面(SERP)。语义Web搜索引擎是用于查找需要合理语义的应用程序:查询通常被编写为自然语言关键字,其结果将被排序。

问题回答


640?wx_fmt=jpeg

它试图从一组文档或包含答案的短文本中找到特定问题的特定答案。例如,印度的首都是哪里?

协作过滤


640?wx_fmt=jpeg

在电子商务网站上根据用户行为提出建议的技术,从您的历史搜索记录向您推荐。

其他领域的自然语言处理


除了上述应用之外,还有一些其他领域使用自然语言处理,如下所示,

  • 政治

  • 电子政务

  • 生物医药

  • 法医学

  • 业务发展

  • 营销

  • 广告

  • 教育

自然语言处理的体系结构


自然语言处理系统的输入可以是语音或文本,它可以是一种手势(多模式输入或可能是手语)。

640?wx_fmt=jpeg

词汇和形态分析


语言是由词汇组成,包括词语和表达。形态学描绘了对单词结构的分析、识别和描述。词法分析涉及将文本分为段落、单词和句子。

句法分析


语法侧重于单词的正确排序及其对意义的影响。这侧重于分析句子的单词来描述句子的语法结构。这些单词被转换成一个结构,显示这些单词是如何相互关联的。例如“男孩们去学校。”这句话将被英语句法分析器拒绝。

语义分析


语义学着重于单词,句子和短语的含义。这从字典中抽象出字典含义或确切含义。由句法分析器创建的结构被赋予意义实例,“多彩的蓝色想法。”这个句子将被分析器拒绝,因为彩色蓝色没有任何意义。

话语整合


它找出了上下文的意义。任何单个句子的含义取决于它之前的句子,并且还会调用其后面的短语的含义。例如“她想要它”中的单词“it”取决于先前的话语语境。

语用分析



语用学涉及整个的交际和社会背景及其对解释的影响。它意味着在情境中抽象或推导出有目的的使用语言,重要的是需要世界知识的语言。主要关注的是重新诠释的内容。

  • 例如,“关闭窗口?”应该被解释为请求而不是订单

自然语言处理的组成部分


自然语言处理的重要组成部分如下:

  • 输入预处理:语音/手势识别器或文本预处理器

  • 形态分析

  • 语音标记

  • 解析 - 这包括语法和组合语义

  • 消歧:它可以作为解析的一部分来完成

  • 上下文模块:它维护有关上下文的信息

  • 文本计划:语言生成的一部分/传达的意义

  • 战术生成:它将意义表示转换为字符串。

  • 形态生成

  • 输出处理:文本到语音,文本格式等。

使用NLTK进行自然语言处理


640?wx_fmt=jpeg

自然语言工具包,即NLTK是最受欢迎的自然语言处理库之一,非常容易学习,它是用Python编写的,其背后有一个很大的社区。


640?wx_fmt=jpeg

长按二维码 ▲

订阅「架构师小秘圈」公众号

如有启发,帮我点个在看,谢谢↓

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值