NLP—斯坦福课程笔记

原文链接:http://www.jianshu.com/p/b42f5420822b
  1. 前序知识背景:掌握训练和评估一个机器学习模型;如何保持你的测试集与训练集分离 ;能知道自己的模型能不能用;知道过拟合、泛化以及正则化意味着什么、;关于优化:了解梯度下降及与其相关的知识;线性回归、分类算法、一些神经网络算法、反向传播算法、编程

  2. 工具:torch(基于lua语言)/tensorflow/theano/dynet都是神经网络模型的好工具

  3. 机器学习的过程及条件:data[n,x,y] + model(+modelcandidates)[y=wx + b] + parameters[ w, b ] + cost[C(w,b) = Σ(y-y’)] + optimizer[arg min C(w,b)] = System[y=4x-4]

    • 机器学习中的参数搜索问题:即使模型可以做得更好,也找不到参数使模型变得更好,那么解决方法是:先用大步长更快的到达最佳点,但因为优化的结果很可能没有小步长那么好,因此再用参数改变的小步长慢慢找到最优点(但参数训练会很耗时间),最终能找到损失函数为0的点(最佳点),梯度下降算法
    • system 实现你所想要的功能
    • 在图像分类中,每一个像素点都是一个特征(多变量问题 ),不适合以上2个变量的调参方法
  4. deeplearning

    • 非线性模型:数据背景-线性的函数不能构建模型,没有任何方法可以让你画一条直线来没有遗漏一个的穿过所有的点;so 你需要定义一个合适的函数使得它对于这些数据集是最佳的。如果定义一条直线使其尽可能接近每一个点,则会欠拟合,那么这个模型是欠解释力的,因此采用非线性。

      • 用两个线性函数来建模:y=(w1x+b1)s1 + (w2x+b2)s2
    • 多层感知(multilayer perceptrons)

      • y = (w1x+b1)s1 + (w2x+b2)s2 + (w3x+b3)s3

        s1 = σ(w4x +b4) ————(layer 1 perceptron:input features)
        s2 = σ(w5s1 + w6s3 + b5) ————(layer 2 perceptron:And and Or Combinations)
        s3 = σ(w7x+b6) ———— (layer 1 perceptron)

      • PS: layer3:Xor Combinations(可以使用异或的定义或者使用和、或的连接来实际上完成第三层)

        Xor(s1,s2) = Or(And(s1,!s2),And(!s1,s2))

转载于:https://www.jianshu.com/p/b42f5420822b

展开阅读全文
博主设置当前文章不允许评论。

没有更多推荐了,返回首页