机器学习基础知识点④:神经网络

一、神经网络篇

1、Dropout

  • 正则化方法,缓解过拟合,网络训练阶段,每次迭代随机丢弃一部分神经元,相当于每次迭代都在训练不同结构的神经网络。测试阶段恢复全部神经元。
  • 近似Bagging,不同的是原始Bagging中所有模型是相互独立的,Dropout不同的网络其实是共享了参数。
  • 减少了神经元之间复杂的共适应关系,即网络中每个神经元不会对另一个特定神经元的激活非常敏感,学到更泛化的特征。

RNN中如何使用Dropout

  • RNN有前馈连接:t时刻的输入到输出之间的连接;循环连接:Ht到Ht+1之间的连接,
  • Dropout随机丢弃连接,不是神经元,可以直观应用于前馈连接。应用于循环连接(基于变分推理的Dropout,在语言模型和情感分析)时:同一个序列在其所有时刻的循环连接上采用相同的丢弃方式,这样可以实现不同时刻丢弃的连接是相同的。

二、Word2vec

(1)介绍下Hierarchical Softmax的计算过程,怎么把 Huffman 放到网络中的?参数是如何更新的?对词频低的和词频高的单词有什么影响?为什么?

Hierarchical Softmax利用了Huffman树依据词频建树,词频大的节点离根节点较近,词频低的节点离根节点较远,距离远参数数量就多,在训练的过程中,低频词的路径上的参数能够得到更多的训练,所以效果会更好。

(2)Word2Vec有哪些参数,有没有什么调参的建议?

  • Skip-Gram 的速度比CBOW慢一点,小数据集中对低频次的效果更好;

  • Sub-Sampling Frequent Words可以同时提高算法的速度和精度,Sample 建议取值为  [10 ^ -5, 10 ^ -3];

  • Hierarchical Softmax对低词频的更友好

  • Negative Sampling对高词频更友好

  • 向量维度一般越高越好,但也不绝对;

  • Window Size,Skip-Gram一般10左右,CBOW一般为5左右。

(3)Word2Vec有哪些局限性?

Word2Vec作为一个简单易用的算法,其也包含了很多局限性:

  • Word2Vec只考虑到上下文信息,而忽略的全局信息

  • Word2Vec只考虑了上下文的共现性,而忽略的了彼此之间的顺序性

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值