机器学习基础
ML&DL基础知识(have nothing to do with areas you are working on)
DecafTea
定量,归类(框架),融合,体系
展开
-
HMM代码 - HanLP
HanLP HMM 代码,包括概率计算(计算观测序列的条件概率)、学习(最有可能的模型参数)、预测问题(给定观测序列和模型参数,最有可能的状态序列)。/* * <author>Han He</author> * <email>me@hankcs.com</email> * <create-date>2018-06-09 7:47 PM</create-date> * * <copyright file="HiddenM原创 2021-03-31 14:54:50 · 497 阅读 · 0 评论 -
Batch Norm、Layer Norm、Instance Norm、Group Norm、Switchable Norm总结
原文:https://blog.csdn.net/qq_41997920/article/details/899459721.综述在入门深度学习时就深度学习中的一些概念做了一些介绍,但随着学习的不断深入,一些网络优化的技巧越来越多,才发现之前的理解的不够深入。在这里有对BN的理解,对出现的几种归一化进行一些个人理解的介绍,首先看一个直观图归一化层,目前主要有这几个方法,Batch Normalization(2015年)、Layer Normalization(2016年)、Instance Nor转载 2021-03-23 18:38:30 · 215 阅读 · 0 评论 -
PCA李宏毅笔记
https://blog.csdn.net/code_caq/article/details/79636136wiki:原创 2021-03-12 10:41:28 · 131 阅读 · 0 评论 -
dropout
reference:https://www.jianshu.com/p/f7d71f6c5ffc原创 2021-03-01 15:09:15 · 108 阅读 · 0 评论 -
HMM/CRF
1. overviewnote:最大熵模型:是一种log linear模型(log(wTf(x))),f(x)是exponential function,所以加上log后变成linear模型。log linear模型定义:A log-linear model is a mathematical model that takes the form of a function whose logarithm equals a linear combination of the parameters o原创 2020-12-28 15:29:50 · 149 阅读 · 1 评论 -
梯度消失和梯度爆炸及解决方法
转载自:G-kdom的知乎文章 https://zhuanlan.zhihu.com/p/72589432一、为什么会产生梯度消失和梯度爆炸?目前优化神经网络的方法都是基于BP,即根据损失函数计算的误差通过梯度反向传播的方式,指导深度网络权值的更新优化。其中将误差从末层往前传递的过程需要链式法则(Chain Rule)的帮助,因此反向传播算法可以说是梯度下降在链式法则中的应用。而链式法则是一个连乘的形式,所以当层数越深的时候,梯度将以指数形式传播。梯度消失问题和梯度爆炸问题一般随着网络层数的增加会变得原创 2020-12-17 18:38:11 · 1211 阅读 · 0 评论 -
全连接层与Softmax (softmax classifier)
用于分类的深度神经网络的最后一层往往是全连接层+Softmax,那么他的细节是怎样的?reference:https://www.cnblogs.com/shine-lee/p/10077961.html原创 2020-12-16 11:02:50 · 4681 阅读 · 0 评论 -
反向传播
chain rule used in a single neuron:绿箭头(used to calculate z):forward pass红箭头(used to calculate gradients of weight matrices):backward passnetwork architecture:z = w1xh = sigmoid(z)y^ = w2hE(loss) = 1/2||y^ - y||2step1:loss function 对 hidden layer原创 2020-12-14 22:53:59 · 93 阅读 · 0 评论 -
偏差与方差
1. 偏差与方差,泛化性能偏差度量的是单个模型的学习能力,而方差度量的是同一个模型在不同数据集上的稳定性。泛化性能是由学习算法的能力、数据的充分性以及学习任务本身的难度所共同决定的。给定学习任务,为了取得好的泛化性能,则需使偏差较小,即能够充分拟合数据,并且使方差较小,即使得数据扰动产生的影响小。泛化误差具体公式:偏差:偏差度量了学习算法的期望预测与真实结果的偏离程度,即刻画了学习算法本身的拟合能力。方差:方差度量了同样大小的训练集的变动所导致的学习性能的变化,即刻画了数据扰动所造成的影响。原创 2020-12-12 15:26:05 · 182 阅读 · 0 评论 -
机器学习基础知识点
1. 度量标准1.1 回归问题评估度量标准平均绝对误差(MAE, mean absolute error), 均方误差(MSE, mean square error), 均方根误差(RMSE, root mean square error)r2决定系数(coefficient of determination,R2)是反映模型拟合优度的重要的统计量,为回归平方和与总平方和之比。 R2取值在0到1之间,且无单位,其数值大小反映了回归贡献的相对程度,即在因变量Y的总变异(y相对于y平均值的波动,m原创 2020-12-10 23:02:05 · 213 阅读 · 0 评论 -
集成学习
reference:1. Concepts:集成学习DEF:通过训练多个分类器,然后把这些分类器组合起来,以达到更好的测试性能。包括boosting和bagging两种类型。boosting:迭代的训练一系列的分类器,每个分类器采用的”样本的选择方式“都与”上一轮的学习结果“有关。如在adaboost中,之前分类错误的样本有更高的可能性被选到。主要算法有:AdaBoost,GBDT。bagging:每个分类器的样本由”有放回的采样“产生:每个分类器都随机从原样本中做有放回的采样,然后分别在这些采样原创 2020-12-10 10:30:02 · 83 阅读 · 0 评论 -
gradient descent and its variants
借鉴了:Hongyi Li的ML课程第九节《tips for DL》Gradient descent及其变形stochastic gradient descent一次更新take in一个data point或一个mini-batch。Adagrad原创 2020-11-22 19:07:25 · 122 阅读 · 1 评论 -
baseline, benchmark,backbone
1.baseline这个最常见,一般指你要比较的方法,如前人在paper中的方法,你以它为baseline并且明显在某些方面超越它,就所谓的state of the art.2.benchmark这个在不同方面代表不同的意思,一般指具体实验的载体,在CV中主要指DataSet,某一类数据集用来实验某一项研究,如当前比较火的Mate-learning中的Omniglot,就是一个多种类,单个种类样本却很少的数据集。专门用来玩few shot learning或者 one shot learning.或转载 2020-10-25 23:36:37 · 237 阅读 · 0 评论 -
activation function & cost function
First of all, 有一篇总结的很好的博文:https://blog.csdn.net/qq_31347869/article/details/1027997201. Activation Function1) sigmoidimport numpy as npdef sigmoid(x): s = 1 / (1 + np.exp(-x)) return sx = np.array([1, 2, 3])sigmoid(x)>>>array([ 0.731原创 2020-10-21 13:38:44 · 108 阅读 · 0 评论