Task01:赛题理解(3天)


183-NEOWISE(nlp)-tang

学习任务

赛题理解(臣妾做不到啊),还是先学习自然语言处理吧.

介绍NLP研究的对象

引用https://blog.csdn.net/u010451780/article/details/107225555
"
自然语言处理
语言能力
语言应用
在人与人交际中以及人与计算机交际中的语言问题
交叉学科
语言模型
隐马尔可夫模型
统计自然语言处理
基于统计的自然语言处理的理论基础是哲学中的经验主义,基于规则的自然原因处理的理论基础是哲学中的理性主义
自然语言处理研究的内容
机器翻译(machine translation,MT):实现一种语言到另一种语言的自动翻译
自动文摘(automatic abstracting):将文档的主要内容和含义自动归纳、提炼,形成摘要
信息检索(information retrieval):从海量文档中找到符合用户需要的相关文档
文档分类(document categorization/classification):对大量的文档按照一定的分类标准(例如,根据主题或内容划分等)实现自动归类。
情感分类(sentiment classification)或称文本倾向性识别(text orientation identification)
文本分类(text categorization/classification)或信息分类(information categorization/classification)
问答系统(question-answering system):对用户提出的问题的理解,利用自动推理等手段,在有关知识资源中自动求解答案并做出相应的回答。
信息过滤(information filtering):自动识别和过滤那些满足特定条件的文档信息。
信息抽取(information extraction):指从文本中抽取出特定的事件(event)或事实信息,有时候又称事件抽取(event extraction)。
信息抽取系统通常以信息检索系统(如文本过滤)的输出作为输入,而信息抽取技术又可以用来提高信息检索系统的性能
文本挖掘(text mining):从文本(多指网络文本)中获取高质量信息的过程
文本分类、文本聚类(text clustering)、概念或实体抽取(concept/entity extraction)、粒度分类、情感分析(sentiment analysis)、自动文摘和实体关系建模(entity relation modeling)等多种技术。
舆情分析(public opinion analysis):舆情是较多群众关于社会中各种现象、问题所表达的信念、态度、意见和情绪等等表现的总和
网络文本挖掘、观点(意见)挖掘(opinion mining)等各方面的问题。
隐喻计算(metaphorical computation):研究自然语言语句或篇章中隐喻修辞的理解方法。
文字编辑和自动校对(automatic proofreading):对文字拼写、用词,甚至语法、文档格式等进行自动检查、校对和编排。
作文自动评分:对作文质量和写作水平进行自动评价和打分 语音识别(speech recognition):将输入的语音信号识别转换成书面语表示。
文语转换(text-to-speech conversion):将书面文本自动转换成对应的语音表征,又称语音合成(speech synthesis)。
说话人识别/认证/验证(speaker recognition/identification/verification):对说话人的言语样本做声学分析,依此推断(确定或验证)说话人的身份。
自然语言处理涉及的几个层次? 如果撇开语音学研究的层面,自然语言处理研究的问题一般会涉及自然语言的形态学语法学语义学语用学等几个层次。
形态学(morphology):形态学(又称“词汇形态学”或“词法”)是语言学的一个分支,研究词的内部结构,包括屈折变化和构词法两个部分。由于词具有语音特征、句法特征和语义特征,形态学处于音位学、句法学和语义学的结合部位,所以形态学是每个语言学家都要关注的一门学科。
语法学(syntax):研究句子结构成分之间的相互关系和组成句子序列的规则。其关注的中心是:为什么一句话可以这么说,也可以那么说?
语义学(semantics):语义学的研究对象是语言的各级单位(词素、词、词组、句子、句子群、整段整篇的话语和文章,乃至整个著作)的意义,以及语义与语音、语法、修辞、文字、语境、哲学思想、社会环境、个人修养的关系,等等。其重点在探明符号与符号所指的对象之间的关系,从而指导人们的言语活动。它所关注的重点是:这个语言单位到底说了什么?
语用学(pragmatics):是现代语言学用来指从使用者的角度研究语言,特别是使用者所作的选择、他们在社会互动中所受的制约、他们的语言使用对信递活动中其他参与者的影响。目前还缺乏一种连贯的语用学理论,主要是因为它必须说明的问题是多方面的,包括直指、会话隐含、预设、言语行为、话语结构等。部分原因是由于这一学科的范围太宽泛,因此出现多种不一致的定义。从狭隘的语言学观点看,语用学处理的是语言结构中有形式体现的那些语境。相反,语用学最宽泛的定义是研究语义学未能涵盖的那些意义。因此,语用学可以是集中在句子层次上的语用研究,也可以是超出句子,对语言的实际使用情况的调查研究,甚至与会话分析、语篇分析相结合,研究在不同上下文中的语句应用,以及上下文对语句理解所产生的影响。其关注的重点在于:为什么在特定的上下文中要说这句话? 在实际问题的研究中,上述几方面的问题,尤其是语义学和语用学的问题往往是相互交织在一起的。语法结构的研究离不开对词汇形态的分析,句子语义的分析也离不开对词汇语义的分析、语法结构和语用的分析,它们之间往往互为前提。 自然语言处理面临的困难?
根据上面的介绍,自然语言处理涉及形态学、语法学、语义学和语用学等几个层面的问题,其最终应用目标包括机器翻译、信息检索、问答系统等非常广泛的应用领域。其实,如果进一步归结,实现所有这些应用目标最终需要解决的关键问题就是歧义消解(disambiguation)问题和未知语言现象的处理问题。
一方面,自然语言中大量存在的歧义现象,无论在词法层次、句法层次,还是在语义层次和语用层次,无论哪类语言单位,其歧义性始终都是困扰人们实现应用目标的一个根本问题。因此,如何面向不同的应用目标,针对不同语言单位的特点,研究歧义消解和未知语言现象的处理策略及实现方法,就成了自然语言处理面临的核心问题。
另一方面,对于一个特定系统来说,总是有可能遇到未知词汇、未知结构等各种意想不到的情况,而且每一种语言又都随着社会的发展而动态变化着,新的词汇(尤其是一些新的人名、地名、组织机构名和专用词汇)、新的词义、新的词汇用法(新词类),甚至新的句子结构都在不断出现,尤其在口语对话或计算机网络对话、微博、博客等中,稀奇古怪的词语和话语结构更是司空见惯。因此,一个实用的自然语言处理系统必须具有较好的未知语言现象的处理能力,而且有足够的对各种可能输入形式的容错能力,即我们通常所说的系统的鲁棒性(robustness)问题。当然,对于机器翻译、信息检索、文本分类等特定的自然语言处理任务来说,还存在若干与任务相关的其他问题,诸如如何处理不同语言的差异、如何提取文本特征等。 总而言之,目前的自然语言处理研究面临着若干问题的困扰,既有数学模型不够奏效、有些算法的复杂度过高、鲁棒性太差等理论问题,也有数据资源匮乏、覆盖率低、知识表示困难等知识资源方面的问题,当然,还有实现技术和系统集成方法不够先进等方面的问题。

如何表示单词的含义

Word2Vec方法的基本原理

https://blog.csdn.net/wr1997/article/details/102583424

©️2020 CSDN 皮肤主题: 大白 设计师:CSDN官方博客 返回首页