爱丁堡 ANLP-Lecture 1(NLP Structure Morphology, Ambiguity, Part of Speech)

1. NLP 的应用

  1. 机器翻译(machine translation,MT):实现一种语言到另一种语言的自动翻译
  2. 自动文摘(automatic abstracting):将文档的主要内容和含义自动归纳、提炼,形成摘要
  3. 信息检索(information retrieval):从海量文档中找到符合用户需要的相关文档
  4. 文档分类(document categorization/classification):对大量的文档按照一定的分类标准(例如,根据主题或内容划分等)实现自动归类。
    文档分类也称文本分类(text categorization/classification)或信息分类(information categorization/classification),近年来,情感分类(sentiment classification)或称文本倾向性识别(text orientation identification)成为本领域研究的热点。
  5. 问答系统(question-answering system):对用户提出的问题的理解,利用自动推理等手段,在有关知识资源中自动求解答案并做出相应的回答。
  6. 信息过滤(information filtering):自动识别和过滤那些满足特定条件的文档信息。
  7. 信息抽取(information extraction):指从文本中抽取出特定的事件(event)或事实信息,有时候又称事件抽取(event extraction)。

信息抽取与信息检索不同,信息抽取直接从自然语言文本中抽取信息框架,一般是用户感兴趣的事实信息,而信息检索主要是从海量文档集合中找到与用户需求(一般通过关键词表达)相关的文档列表,而信息抽取则是希望直接从文本中获得用户感兴趣的事实信息。当然,信息抽取与信息检索也有密切的关系,信息抽取系统通常以信息检索系统(如文本过滤)的输出作为输入,而信息抽取技术又可以用来提高信息检索系统的性能。
信息抽取与问答系统也有密切的联系。一般而言,信息抽取系统要抽取的信息是明定的、事先规定好的,系统只是将抽取出来的事实信息填充在给定的框架槽里,而问答系统面对的用户问题往往是随机的、不确定的,而且系统需要将问题的答案生成自然语言句子,通过自然、规范的语句准确地表达出来,使系统与用户之间形成一问一答的交互过程。

2. NLP Structure

  1. words - 这个就是一句话 字面意思
  2. Morphology - 词态学 词态是以词素为中心的, 具体的看下面
  3. Part of speech - 词性 这个考虑的是词性比如动词 名词 形容词 具体的词性对照表在下面
  4. Syntax - 句法学 这个是看一个句子是怎么构成的, 句子结构成分之间的相互关系和组成句子序列的规则
  5. semantics - 语义学 关注的是一个语言单位究竟说了什么
  6. Discourse - 对话 去分析不同句子之间是不是有其它深层意思, 比如你只看第一句话你并不知道整个的意思很有可能认为是贬义, 答案是如果看了下一句话也就是看了整个discourse就会发现其实是一个褒义.

在这里插入图片描述

2.1 Word (token type, stem lemma)

2.11 Token and Type

Tokenization 是决定并提取words的过程.
从一段文字里提取出了多少个单词(可以重复 按特定规则比如空格)就有多少token, 然后对于同一段文字在token确定的情况下有多少种不同的单词就有多少种types. token就是一段文字按一定规则提取(words 的定义)出来的单词总数 而type是一段文字中不重复的distinct word 数量. 那么words的定义是什么呢, 如果是空格那么中文就不适用对于一部分英文也不适用比如high-risk, Yao Chen’s

2.12 Zipf’s Law 和 log 坐标系

Zipf’s law 决定了一定会有很少出现的词 对于这些词由于很难拿到数据因此很难进行机器学习处理 就要结合linguistics 的一些规则来帮助判断 然而linguistics会有很多歧义是通过句法语法无法解决的这个时候需要机器学习帮助也就是互帮互助!
这个定律是说对于一个语言来说一个单词的频率和它的频率排位的相乘是一个定值:
在这里插入图片描述
如果是定值的话那么在对数坐标系下这就是个直线(对数坐标系能把非线性转化为线性):
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
其实最主要的是利用了对数的非线性运算法则 相当于在非线性上引用了非线性抵消了非线性性质变成了线性性质. 我们来看下对数坐标系的另一个好处(Zoom-in/Scalling):
在这里插入图片描述
没有用对数坐标系的时候什么都看不清即使zoom-in 了也只能看清前面一小段是不够的. 如果我们用对数坐标系也就是y’=logy x’=logx 那么横纵坐标就会变成个数级别那么自然就把整个图给拉小

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值