自然语言处理学习之一

Day1

基本概念

word2vec

顾名思义,将词转换为向量,再把所有词的向量拼接在一起,从而让计算机可以读懂文本的含义。

应用范围

  1. 拼写检查、关键词检索
  2. 文本挖掘(产品价格、日期、地点、公司名等)
  3. 文本分类
  4. 机器翻译
  5. 客服系统
  6. 复杂对话系统

使用深度学习

原因:自动特征学习快,深度学习提供一个通用的学习框架,用来表示世界、视觉和语言学信息,交流比较方便既可以无监督学习,也可以监督学习。

语言模型

概率

今天 下午 小熊
在这里插入图片描述

  1. 条件概率
    p(w1) = 出现的概率
    p(w2|w1) = 出现的前提下,今天出现的概率
    p(w3|w1,w2) = 我今天出现的前提下,下午出现的概率
    以此类推
    p(S)就是语言模型,用来计算一个句子出现概率的模型。

  2. 存在问题
    (1) 数据过于稀疏
    (2)参数空间太大

  3. 简化思路
    一个词的出现可能跟隔着很远的词没什么关联,比如下午,但是今天下午关联会更大些,所以我们
    1)假设下一个词的出现依赖它前面的一个词:
    在这里插入图片描述
    P(我今天下午想小熊)= P(我)P(今天|我)P(下午|今天)P(想|下午)P(小熊|想)
    P(今天|我)= (之后出现今天的次数)/(出现的次数)

    2)假设下一个词的出现依赖它前面的两个词:
    在这里插入图片描述

  4. 量级
    在这里插入图片描述假设词典的大小是N,则模型参数的量级是(O(N^n))

词向量

将词不仅映射成数值,数值还得是有意义的。词向量要有潜在的含义,要使关联度大的的词更接近,如下图的 has had have和其他同义词。在语言空间上,要有这样一种体现,这样机器给出的结果才更准确。
在这里插入图片描述
不同语言中相同含义的词的分布应该一致,这样语言模型便不是只针对某一种语言,而是通用的。如下图,左边是英语,右边是西班牙语。因为语言的逻辑基本是相同的。 在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值