【小白总结】NLP算法:文本研究领域与NLP文本标注工具(一)

 

       自然语言处理本身是为了让计算机能够处理、理解以及运用人类语言,从而达到人与计算机之间的有效通讯,为了研究信息检索、情感分析、文本分类、智能问答、摘要提取、文本挖掘,舆情分析、知识图谱等方面的问题,解决在词态、句法、语义上的歧义性,这里主要是介绍我个人在使用相关算法学习时使用的开源标注工具和标注平台,以供参考。

文本研究领域:

  1. 知识图谱:知识图谱技术既涉及自然语言处理中的各项技术,在资源内容的表示上可以使用从浅层的文本向量表示、到句法和语义结构表示,从自然语言处理技术上会使用到分词和词性标注、命名实体识别、句法语义结构分析、指代分析等。信息抽取和语义集成是知识图谱构建的核心技术问题。
  2. 信息抽取:是指从非结构化/半结构化文本(如网页、新闻、论文文献、微博等)中提取指定类型的信息(如实体、属性、关系、事件、商品记录等),并通过信息归并、冗余消除和冲突消解等手段将非结构化文本转换为结构化信息的一项综合技术。目前信息抽取的核心研究内容可以划分为命名实体识别(Named Entity Recognition, NER)、关系抽取(RelationExtraction)、事件抽取和信息集成(Information Integration)。
  3. 文本挖掘:文本挖掘是指从这些非结构或半结构化的文本数据中获取高质量的结构化信息的过程。换言之, 文本挖掘的目的是从未经处理的文本数据中获取有用知识或信息。典型的文本挖掘任务包括 文本分类、文本聚类、概念/实体抽取、情感分析、文档摘要等。
  4. 情感分析:情感分析研究的目标是建立一个有效的分析方法、模型和系统,对输入信息中某个对象分析其持有的情感信息,例如观点倾向、态度、主观观点或喜怒哀乐等情绪表达。主要的情感分析任务包括:情感资源构建、情感信息的质量分析、情感分类、情感信息抽取。比较新兴的也有情感解释,反讽分析、立场分析。
  5. 摘要提取:摘要提取是指通过自动分析给定的一篇文档或多篇文档,提炼、总结其中的要点信息,最终输出一篇长度较短、可读性良好的摘要(通常包含几句话或数百字),该摘要中的句子可直接出自原文,也可重新撰写所得。其主要的任务包括要点筛选、文摘合成。
  6. 信息检索:检索用户、信息资源和检索系统三个主要环节组成了信息检索应用环境下知识获取与信息传递的完整结构,而当前影响信息获取效率的因素也主要体现在这几个环节,即:检索用户的意图表达、信息资源(尤其是网络信息资源)的质量度量、结果匹配排序、信息检索评价。

从几大领域中不难从中看出NLP是围绕着四个模块展开的:分类、序列标注、文本匹配、文本生成。

NLP分类/聚类:

NLP分类的算法总结:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值