自然语言处理

自然语言处理的概念

  1. 自然语言处理是人工智能和语言学的交叉学科,该领域主要探讨如何处理及运用自然语言、自然语言认知(让计算机能“懂”人类的语言)、自然语言生成系统(将机器数据转换成自然语言)以及自然语言理解系统将自然语言转化为计算机程序更易于处理的形式。

自然语言处理的两大体系

  1. 自然语言理解(NLU)
  2. 自然语言生成(NLG)

自然语言处理的主要任务

  1. 分词(中文分词、英文分词)
    如:“小明毕业于清华大学”的分词结果可能会是这样的:[“小明”,“毕业”,“于”,“清华”,“大学”,“清华大学”],为什么说是可能,其实这取决于我们是用什么样的分词工具,这个我们后边会有专门的文章来聊这一块;
    主要方法:

    (1) 基于词典的匹配:前向最大匹配、后向最大匹配

    (2) 基于词的标注:最大熵模型、条件随机场(CRF)/感知机

    (3) 其他方法:与词性标注结合、与句法分析结合

  2. 词性标注(Part-of-Speech tagging,简称POS tagging)
    如:“小明毕业于清华大学”标注结果为:“小明[名词]毕业[动词]于[介词]清华大学[名词]”

    主要方法:

    (1) 基于统计概率

    (2) 隐马尔可夫模型(HMM)

    (3) 机器学习(ML)

  3. 语义消歧(WSD)
    语义消歧的主要目的是识别单词的正确含义

  4. 文本分类
    文本分类是指计算机对文本集使用一定的分类模型进行自动分类标记的过程,也是现阶段应用较为广泛的一个方面,具体过程如下:
    (1) 预处理:将原始预料转换成同一格式,便于后续的处理
    (2) 索引:将文档分解为基本处理单元,同时降低后续处理的开销
    (3) 统计:词频统计,(单词、概念)与分类的相关概率
    (4) 特征抽取:从文档中抽取出反应文档主体的特征
    (5) 分类器:分类器的训练
    (6) 评价:分类器的测试结果分析
    (7) 调优:对分类器的超参数进行调优
    文本分类的主要算法:
    决策树、朴素贝叶斯、神经网络、支持向量机(SVM)、KNN、EM、ME 等等
    文本分类的主要应用:垃圾邮件过滤、新闻分类

  5. 文本挖掘
    文本挖掘就是利用自然语言处理技术,让计算机具备文字阅读能力,帮助用户自动化处理海量文本数据,提升文字处理效率和文本挖掘深度,降低人工成本的一种任务;

  6. 信息抽取
    信息抽取也叫知识抽取,主要处理的是结构化数据(数据库、链接数据等)、半结构化数据(网页中的列表、table)、非结构化数据(纯文本数据),从这当中去进行关系、事件等等的抽取;

  7. 问答系统(QA)
    现代化的问答系统其实是融合知识库、信息检索、机器学习、自然语言处理等技术的一种人机对话服务,其涉及到的信息检索、知识表示这样的一些内容使得开发一款非传统的QA系统会比较困难,这里说的传统的QA系统,比如说基于常见问题集FAQ的问答系统,准确点说应该是传统的信息检索系统。

  8. 机器翻译(MT)
    机器翻译其实很好理解,就是将句子或者短语从源语言转化成目标语言的任务,比如说常用的英文–>中文,这个过程需要考虑一些什么内容呢,比如说由于两个语言之间句子结构导致的差异,直译必然导致的问题就是,翻译出来的句子可能并不是一句正常的话语,通俗点说,不是人话,如何解决这个问题,常用的比如说语言模型(LM)等等。这一块后边再补充。

  9. 命名实体识别(NER)
    NER尝试从给定的文本主体或者文本语料库中提取实体(如:人物、位置或者组织),像现在流行的知识图谱当中必不可少的任务就是命名实体识别,还有上边的信息抽取;

简单总结一下,很多时候一个完整的自然语言处理应用系统并不是只由单个任务组成,而是有多个任务合并执行的,比如说我问了一个这样的问题:“我想找一家不错的法式餐厅”,(虽然我可能没钱去,题外话了),那么需要处理哪些信息呢?首先语音转为文本、语义分析、情感分析:我找的是一家不错的,机器翻译:可能餐厅名称是法文的,我听不懂不是、问答:系统需要告诉我哪里有或者没有这样的餐厅。诸如此类的问题。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
[语法讲义].朱德熙.扫描版.pdf 《现代汉语词类研究》.郭锐.扫描版.pdf 《现代汉语语法研究教程》.陆俭明.扫描版.pdf 一种基于句子分割的文法自动推导算法.pdf 一种细粒度的评价对象抽取及倾向性判别方法.pdf 文功能组块分析及应用研究.pdf 文句法语义分析及其联合学习机制研究.pdf 人机对话系统若干关键问题研究.pdf 从树库的实践看句本位和心词分析法的生命力.pdf 关于CKY句法分析效率的实验性研究.pdf 关联文法语法分析的并行处理研究.pdf 口语对话系统的一种稳健语言理解算法.pdf 句法分析树标注集及事件分析.pdf 基于Chart算法的句法分析系统的设计与实现.pdf 基于一种新的合成核的文实体关系自动抽取.pdf 基于心驱动模型的宾州文树库(CTB)句法分析.pdf 基于文的句法分析系统的研究与实现.pdf 基于二元组合文法的语义知识库构建.pdf 基于动作建模的文依存句法分析.pdf 基于句法分析与依存分析的评价对象抽取.pdf 基于层次模型的文句法分析.pdf 基于树库和机器学习的汉语依存句法分析.pdf 基于树库的汉语依存句法分析.pdf 基于概率上下文无关语法的句法分析研究与实现.pdf 基于统计的自然语言处理.pdf 基于自然语言理解的自动应答技术及应用研究.pdf 基于语义的汉语句法分析系统的研究与实现.pdf 基于语料库学习的多主题自动问答系统研究.pdf 基于语法功能匹配的句法分析算法.pdf 机器翻译原理与方法讲义(05)基于句法的统计机器翻译方法.pdf 汉语句子的组块分析体系.pdf 汉语句法分析方法研究.pdf 汉语多重关系复句的关系层次分析.pdf 汉语并列结构的自动识别.pdf 汉语概率型上下文无关语法的自动推导.pdf 统计句法分析建模基于信息论的特征类型分析.pdf 自然语言处理-句法剖析论文.pdf 自然语言理解的语义分析在产品设计的应用.pdf 融合丰富语言知识的汉语统计句法分析.pdf 限定领域的基本陈述句句法分析.pdf 面向文问答系统的问句句法分析.pdf

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值