机器学习英文关键字

本文介绍了机器学习中的一些核心概念,包括softmax、平方误差、交叉熵、Adagrad、RMSProp、Momentum和Adam等优化算法。还讨论了dropout、正则化、早停策略以及梯度消失问题的解决方案ReLU。此外,提到了卷积神经网络、池化、数据处理方法如半监督学习和无监督学习,以及相关技术如K-means、PCA、NMF、SVD。文章深入探讨了词嵌入、t-SNE可视化、自编码器及其变种,并触及了强化学习、生成模型和SVM等相关主题。
摘要由CSDN通过智能技术生成

softmax e的N次方,然后除以和
square error 方差
cross entroy 交叉熵,解决方差梯度太小,回归太慢的问题
Adagrad 计算learning rate
RMSProp 计算learning rate
Momentum 修正梯度方向
Adam RMSProp+Momentum
dropout 每次training的时候,丢弃p%神经元,testing的时候,weight乘以(1-p%).负重训练,追求更好的testing结果。
regularization 使梯度更平滑,使参数不要离0太远,解决overfitting
early stopping 从training set中分一个validation set,模拟testing set,解决overfitting
vanishing gradient problem DNN层次太多,sigmond函数导致靠近input layer的参数学习速率太慢,靠近output layer的参数学习速度太快
relu 解决vanishing gradient problem
maxout relu的一种特殊的relu

convolutional neural network 卷积神经网络
convolution 使用filter进行特征提取
max pooling subsample,对图形进行缩放
flatten 将N维数据转化为1维

modularization 模组化,一种编程思想。DNN只需少量参数就能强大的原因。每个neural可以视为一个分类器,简单分类器组合成复杂分类器。某类复杂属性对应的数据比较少,不好train,但是组成复杂属性的简单属性的数据特别多,容易train,train好了简单属性,复杂属性也就可以搞定了。所以,train需要的数据也可以变少。 只有一层的DNN,可以解决问题,但是它是没有效率的。

半监督学习,有三大假设

  1. 概率假设 semi-supervised generative model soft label(分数) 先初始化一些模型参数,得到分布函数,然后使用label data,unlabel data更新模型参数,得到新的分布函数,如此往复

2.low-density separation assumption 不同类的边界区域样本特别少,非黑即白

self-training hard label(整数) 一种low-density separation方法.先用label data训练出参数,然后对一些unlabel data进行标识,增加label data。然后用新的全部label data训练出新参数,如此往复。

entropy-based regularization label data分类正确,unlabel data分类后的概率信息熵尽量小。这是一个非黑即白的世界

  1. smoothness assumption 近朱者赤,近墨者黑 向量x1,x2在高密度区域接近,则y1,y2是一样的

graph-based approach 定义向量距离函数,建立连接图。AB如果同类,则中间有很多数据实例把它们连接.定义一个smoothness函数表示整个图的平滑程度,作为regularization,被加在label data建立的Loss函数后面,其中unlable data的标签作为回归参数,然后对整体进行剃度下降,计算出unlabel data的标签.(label data标签正确,整个图平滑)

graph laplacian L=D-W W是权重图,D是对角线矩阵

cluster and then label 利用全部data进行聚类,基于smoothness assumption对unlabel data进行标识

无监督学习有两大类

1.clustering & dimension reduction 化繁为简

2.generation 无中生有

clustering 的两种方法

  1. K-means 预先选择k个数据作为中心,然后遍历数据,对数据进行分类,然后更新中心,如此往复

  2. HAC 建立一棵树,叶节点是单个数据,然后根据相似度,叶节点组合成非叶节点,最终组合成root节点

PCA 线性降维,只有一层的神经网络,autoencoder的特殊形式,因为autoencoder可以是非线性的
在信号处理中认为信号具有较大的方差,噪声有较小的方差,信噪比就是信号与噪声的方差比,越大越好。因此我们认为,最好的k维特征是将n维样本点变换为k维后,每一维上的样本方差都尽可能的大。</

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值