machine learning
文章平均质量分 74
敲代码的quant
ML/DL/量化金融/学生
展开
-
【机器学习】LayerNorm & BatchNorm的作用以及区别
使用Normalization的目的当我们使用梯度下降法做优化时,随着网络深度的增加,输入数据的特征分布会不断发生变化,为了保证数据特征分布的稳定性,会加入Normalization。从而可以使用更大的学习率,从而加速模型的收敛速度。同时,Normalization也有一定的抗过拟合作用,使训练过程更加平稳。具体地,Normalization的主要作用就是把每层特征输入到激活函数之前,对它们进行normalization,使其转换为均值为1,方差为0的数据,从而可以避免数据落在激活函数的饱和区,以减少梯原创 2022-01-23 21:00:59 · 23709 阅读 · 8 评论 -
【tensorflow】交叉熵损失函数以及在Tensorflow的使用形式
交叉熵损失函数tf.nn.softmax_cross_entropy_with_logits形式:tf.nn.softmax_cross_entropy_with_logits(_sentinel=None, labels=None, logits=None, dim=-1, name=None)作用:计算labels和logits之间的交叉熵(cross entropy)tf.nn.sigmoid_cross_entropy_with_logits形式:tf.nn.sigmoid_cros原创 2021-07-08 16:22:11 · 2233 阅读 · 0 评论 -
【机器学习】一型模糊集和二型模糊集
模糊集(一型模糊)在经典的集合理论中,一个元素要么属于要么不属于这个集合。相比之下,模糊集则通过隶属度函数来评价一个元素对于一个集合的隶属程度。因此,模糊集是对经典集合的一般化。在模糊集理论中,经典的二价集(bivalent sets)被称作crisp sets。模糊集通常先要划分论域U,再定义一个隶属度函数(membership function)来表示元素对U在[0, 1]上的映射。常用的隶属度函数有高斯隶属度函数,区间隶属度函数,三角隶属度函数,梯形隶属度函数。二型模糊一型模糊通过隶属度函数来原创 2020-09-07 22:12:32 · 10383 阅读 · 9 评论 -
【机器学习】Attention机制的一些整理与理解
写在前面由于最近需要用到Attention机制,看了一些相关的论文以及介绍等,所以打算将其整理一下。关于Attention机制的一些背景知识就不做过多介绍了,做NLP研究的同学一般对其不会陌生。不熟悉的可以看Google的文章 Attention is all you need。Attention机制目前已经成为各种任务,如序列建模或者转换模型,的重要组成部分,它可以允许建立依赖关系而不需考虑输入或者输出序列中的距离。Sequence2Sequence的实例下面的图和视频来自:https://jala原创 2020-07-31 09:33:35 · 1069 阅读 · 0 评论 -
【机器学习】LifeLong Learning(终身学习)介绍
下面的文章转自(已获作者允许):2020机器学习前沿技术----LifeLong learning - stephon的文章 - 知乎文章介绍了关于机器学习比较前沿的一项技术,也就是LifeLong Learning。这篇文章也对LifeLong Learning与Multi-task Learning以及Transfer Learning进行了对比,所以我将其进行了转载,其中对其排版进行了一...转载 2020-04-28 17:32:33 · 11205 阅读 · 0 评论 -
【机器学习】最小二乘法的理解
最小二乘法首先,需要明确的是最小二乘法(Least-square, LS)是一种优化技术(optimization technique),它是用于解决优化问题的,其中,能适用于最小二乘解决的优化问题被称作最小二乘问题(Least-squares problems)。除此之外,像线性规划、梯度下降算法、牛顿法和拟牛顿法、共轭梯度法、拉格朗日成数法以及一些启发式算法如PSO、遗传算法都属于解决优化问...原创 2020-03-26 13:28:11 · 1398 阅读 · 0 评论 -
【机器学习】极大似然估计、最大后验估计的对比与联系
(Maximum Likelihood Estimation)对于一组数据,我们常用某种模型对其进行描述,例如常见的正态分布模型,二项分布模型、以及机器学习中的线性回归模型,甚至是深度学习中的深度神经网络模型。其中每个模型的形式一旦定义,则其最终就由模型中的参数决定了。根据参数估计的性质不同,可以将参数估计的方法分为点估计和区间估计。点估计是通过样本统计量来推断未知总体的参数,如调查一个地区...原创 2020-03-24 14:56:36 · 1768 阅读 · 0 评论 -
【机器学习】L1、L2正则化项的理解及其在机器学习中的应用
文章目录经验风险和结构风险正则化项L1和L2正则化的作用REF经验风险和结构风险在机器学习任务中,常用损失函数(loss function)来衡量模型输出值f(x)f(x)f(x)和真实值Y之间的差异,如下面定义的损失函数:L(Y,f(x))=(Y−f(x))2L(Y, f(x)) = (Y - f(x))^{2}L(Y,f(x))=(Y−f(x))2若数据(X,Y)(X,Y)(X,Y)是服从...原创 2020-03-10 20:04:15 · 1764 阅读 · 0 评论 -
【机器学习】模糊认知图(Fuzzy Cognitive Map, FCM)概念介绍
关于模糊认知图的背景模糊认知图(Fuzzy Cognitive Map, FCM)是一种软计算的方法,是由模糊逻辑和神经网络相结合的产物。FCM与神经网络、图论等领域都有密切联系,正因为其强大的直观表达能力以及推理能力,使得其在各个领域都有应用,也成为了人工智能领域的一个研究方向。从神经网络的角度来看,可以把它看做是一个单层神经网络,因此很多基于神经网络的研究都可以进行借鉴;从图的角度来看,它...原创 2020-02-26 21:48:12 · 10192 阅读 · 6 评论 -
【机器学习】模糊信息粒化(Fuzzy Information Granulation, FIG)
转自:https://www.ilovematlab.cn/thread-25659-1-1.html20世纪60年代,L. A.Zadch教授首次提出了模糊集合论,并于1979年提出了信息粒的概念,将一组相似的研究对象,作为一个整体来研究或者将一个整体为部分来研究,放在一起的对象做成一个整体就叫做信息粒。 粒化计算是信息处理的一个新分支,隶属于软计算科学,它包括词计算理论、粗糙集理论、商空间理...转载 2020-02-25 21:40:49 · 7162 阅读 · 0 评论 -
【机器学习】网络表征学习、网络嵌入必读论文
以下内容转载于:https://blog.csdn.net/weixin_40400177/article/details/103329924NRL: network representation learning. NE: network embedding.ContentSurvey PapersModelsBacis ModelsAttributed NetworkDyn...转载 2020-02-22 18:59:51 · 7450 阅读 · 0 评论 -
【机器学习】ROC曲线和AUC面积
ROC曲线的横坐标轴是FPR(False Positive Rate),纵坐标轴是TPR(True Positive Rate),对应于下面的混淆矩阵(fusion matrix):TPR=TPTP+FNTPR = \frac{TP}{TP+FN}TPR=TP+FNTPFPR=FPFP+TNFPR = \frac{FP}{FP+TN}FPR=FP+TNFP可以看出TPR和FPR分别是TP...原创 2019-11-26 21:39:55 · 2709 阅读 · 0 评论 -
【机器学习】核函数的理解与常见核函数
在一个二维空间中,具有特征空间X和特征空间Y,当其中一个点(x, y)在这个二维平面中,如果想把它映射高维空间中,那么就需要用到核函数。关于核函数的定义是:设XXX是输入空间,YYY是特征空间。如果存在一个从XXX到YYY的映射ϕ(x):X−>Y\phi(x):X -> Yϕ(x):X−>Y,使得对于所有的向量v1,v2∈Xv_{1}, v_{2} \in Xv1,v2∈X...原创 2019-10-24 12:01:02 · 6832 阅读 · 0 评论 -
【机器学习】机器学习公共数据集整理
awesome public data setsgithub上边超过35k star的开源项目,其中包含了金融、医学、能源、时间序列等领域的公共数据集的集合。链接:https://github.com/awesomedata/awesome-public-datasetsUCI machine learning repositoryUCI数据集是加州大学欧文分校(University of...原创 2019-09-20 13:37:15 · 1041 阅读 · 0 评论 -
深入理解机器学习中的:目标函数,损失函数和代价函数
参考知乎回答整理:https://www.zhihu.com/question/52398145主要参考:https://www.zhihu.com/question/52398145/answer/209358209基本概念:损失函数:计算的是一个样本的误差代价函数:是整个训练集上所有样本误差的平均目标函数:代价函数 + 正则化项实际应用:损失函数和代价函数是同一个东西,目标函数是...转载 2019-06-28 21:25:55 · 375 阅读 · 0 评论 -
机器学习中参数模型和非参数模型理解
写在前面非参数模型(non-parametric model)和参数模型(parametric model)作为数理统计学中的概念,现在也常用于机器学习领域中。在统计学中,参数模型通常假设总体服从某个分布,这个分布可以由一些参数确定,如正态分布由均值和标准差确定,在此基础上构建的模型称为参数模型;非参数模型对于总体的分布不做任何假设或者说是数据分布假设自由,只知道其分布是存在的,所以就无法得到...转载 2019-06-28 21:07:50 · 14478 阅读 · 3 评论 -
超限学习机(ELM)、在线顺序超限学习机(OS-ELM)
概念ELM是一种应用于训练SLFN的算法,传统的单隐层前馈神经网络(Single hidden Layer Feedforward Network, SLFN)由于其结构简单、训练速度快且具有较高的泛化能力等特点,已经在模式识别、信号处理、短期预测等领域有了很多应用成果。相比于传统的基于梯度下降的BP算法来训练SLFN,ELM具有更好的泛化能力和更快的训练速度。虽然,国内外对ELM的评价褒贬不...原创 2019-05-08 15:20:26 · 11772 阅读 · 1 评论 -
联合熵(joined entropy)、条件熵(conditional entropy)、相对熵(relative entropy)、互信息(mutual information)以及相关关系整理
这部分内容算是对前面时间序列中近似熵、样本熵、模糊熵等熵的基础部分,毕竟前面部分只是对各种熵的求法步骤做了归纳,要理解其中的意义来得从最基础的部分进行分析。Entropy (熵)熵是衡量随机变量不确定性的指标。根据Shannon的定义,对于一个在概率空间 Ω\OmegaΩ 中,具有概率分布 p(x)p(x)p(x) 的随机变量 XXX,它的熵的定义为:H(X)continuous=−∫Ωp(...原创 2019-04-12 14:02:43 · 5364 阅读 · 0 评论 -
CNN练习之Digit Recognizer
经过了考试月,终于有时间写下代码了。但是发现手生了好多,很多东西都忘记了,于是就在kaggle中那个Digit Recognizer模块下,用CNN写了个简单的网络来熟悉下代码。CNN之前在DQN中有写到,用它来进行特征提取。它在图片识别,以及对图片采样时作用很大。先是从kaggle中下载了测试集和训练集,将它们放到项目中。先将测试集和训练集的数据进行处理。# -------------训练集处理-原创 2018-01-14 20:06:01 · 2198 阅读 · 0 评论 -
skfuzzy.cmeans与sklearn.KMeans聚类效果对比以及使用方法
因为实验中要用到聚类效果的对比,没有时间自己来实现算法,所以Kmeans就用到了sklearn中的Kmeans类,FCM用到了skfuzzy.cmeans。 几个概念1、KmeansKmeans是聚类算法中较为经典的算法之一,由于其效率高,所以一般大规模的数据进行聚类的时候都会被广泛应用。算法的目的是,先指定聚类的数目c,然后将输入的数据划分为c类,值簇内的数据之间具有较高的相...原创 2018-03-16 18:42:36 · 19554 阅读 · 14 评论 -
An Artificial Neural Network-based Stock Trading Sysytem Using Technical Analysis and Big Data Frame
不经意看到的一篇paper,整理一下:题目:An Artificial Neural Network-based Stock Trading Sysytem Using Technical Analysis and Big Data Frame work发表时间:2017/12摘要:这篇论文所做的工作主要就是利用股票中的一些技术指标,基于神经网络做的一套交易系统,训练和测试用的是Dow30stoc...原创 2018-03-21 15:48:00 · 2249 阅读 · 0 评论 -
Deep Direct Reinforcement Learning for Financial Signal Representation and Trading
这篇论文对我个人的意义挺大的,毕竟是入坑智能交易看的第一篇论文,这篇论文前前后后看了也不下十多遍,抛去其技术性的方面,整篇论文的排版、写作方式以及实验的对比都有很大的借鉴意义。原文在百度学术和google学术都可以找到。题目:《Deep Direct Reinforcement Learning for Financial Signal Representation and Trading》发表于...原创 2018-03-21 18:14:13 · 5552 阅读 · 10 评论 -
Tensorflow中关于参数初始化的方法
在对神经网络模型进行训练的时候,训练的就是模型中的Weight、Bias参数,要想模型效果好,当然参数就要训练到一个好的结果了,因此参数的初始化在训练时也起到了非常重要的作用,好的初始化参数可以加快模型的收敛,尽快得到好的效果,否则容易使模型的收敛变慢或者造成结果的发散。在tensorflow中有很多关于参数初始化的方法,以下内容转自以下链接:http://www.mamicode.com/inf...转载 2018-04-01 20:42:52 · 9855 阅读 · 0 评论 -
Metric Learning——度量学习
看到一篇知乎大神Flood Sung发表在CVPR2018上的paper,介绍了一种基于metric的模式识别方法,创新之处在于它不同于常用的matric-based方法,使用人为定义的度量,像简单的欧式距离、马氏距离,而是采用了用神经网络去训练这个度量,模型虽然简单,但是效果却很显著。1、度量(Metric)先说一下关于度量这个概念:在数学中,一个度量(或距离函数)是一个定义集合中元素之间距离的...原创 2018-04-10 15:30:29 · 13439 阅读 · 0 评论 -
tensorflow实现rnn之tf.nn.dynamic_rnn参数shape介绍
使用tensorflow实现rnn或者lstm很方便,只需创建rnn或者lstm神经单元,然后创建网络就可以了,但是rnn或者lstm不同于常规的nn神经网络,因为它是处理时间序列的,所以在进行batch训练时,对数据格式的要求也不一样。下面举一个预测价格的例子:创建网络先看一下rnn的最基本结构:代码如下: def _build_net(self): self.x = tf...原创 2018-04-16 12:47:13 · 12488 阅读 · 4 评论 -
KL散度、JS散度以及交叉熵对比
在看论文《Detecting Regions of Maximal Divergence for Spatio-Temporal Anomaly Detection》时,文中提到了这三种方法来比较时间序列中不同区域概率分布的差异。KL散度、JS散度和交叉熵三者都是用来衡量两个概率分布之间的差异性的指标。不同之处在于它们的数学表达。对于概率分布P(x)和Q(x)1)KL散度(K...原创 2018-06-07 21:18:10 · 31794 阅读 · 11 评论 -
Kullback-Leibler_divergence(KL散度、相对熵)
又是概率论中的知识,后悔上课没好好学概率论TAT。转自:https://blog.csdn.net/zb1165048017/article/details/489371351 前言注意两个名词的区别:相对熵:Kullback–Leibler divergence交叉熵:cross entropyKL距离的几个用途:① 衡量两个概率分布的差异。② 衡量利用概率分布Q 拟合概率分布P 时的能量损耗,...转载 2018-06-07 19:46:22 · 5654 阅读 · 0 评论 -
距离算法汇总
转载自:https://blog.csdn.net/mousever/article/details/459676431. 欧氏距离,最常见的两点之间或多点之间的距离表示法,又称之为欧几里得度量,它定义于欧几里得空间中,如点 x = (x1,...,xn) 和 y = (y1,...,yn) 之间的距离为:(1)二维平面上两点a(x1,y1)与b(x2,y2)间的欧...转载 2018-07-12 12:52:31 · 1865 阅读 · 0 评论 -
CNN卷积神经网络结构及参数配置
来源:机器学习算法与自然语言处理作者:白雪峰转载于:https://blog.csdn.net/np4rHI455vg29y2/article/details/789581211、CNN例子Yann LeCun提出的最基本和开始的CNN结构图2、什么是CNN2.1、什么是卷积连续和离散卷积的定义:特点:2.2、离散卷积的例子丢骰子时加起来要等于4的概率是多少?二维离散的卷积计算的动图如下2.3、用...转载 2018-07-14 10:00:27 · 8507 阅读 · 0 评论 -
最小二乘法、梯度下降法以及最大似然法之间区别整理
一、最小二乘法(least square method)转自https://blog.csdn.net/suibianshen2012/article/details/515320031.背景先看下百度百科的介绍:最小二乘法(又称最小平方法)是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差...转载 2018-08-05 17:14:09 · 7909 阅读 · 0 评论 -
Ensemble Learning常见方法总结(Bagging、Boosting、Stacking、Blending)
看到过一个问题:Random Forest、Adaboost、GBDT、XGBoost的区别是什么?这个问题基本上覆盖了关于Ensemble Learning中常见的几种方法,以及Ensemble Learning中各个方法的使用的流行程度,最后再来回答这个问题。 南京大学周志华教授在09年发布的论文中《Ensemble Learning》对集成学习中常见的三种方法(Boosting、Ba...原创 2018-08-14 17:24:07 · 10359 阅读 · 1 评论 -
RMSE(均方根误差)、MSE(均方误差)、MAE(平均绝对误差)、SD(标准差)
RMSE(Root Mean Square Error)均方根误差衡量观测值与真实值之间的偏差。常用来作为机器学习模型预测结果衡量的标准。MSE(Mean Square Error)均方误差MSE是真实值与预测值的差值的平方然后求和平均。通过平方的形式便于求导,所以常被用作线性回归的损失函数。MAE(Mean Absolute Error)平均绝对...原创 2018-08-24 20:20:10 · 252975 阅读 · 8 评论 -
向量和矩阵的范数整理
范数(norm)范数是数学中的一个基本概念,它常常用来度量某个向量空间(或矩阵)中的每个向量的长度或者大小,以此来进行比较。 向量的范数对向量的范数先进行一个直观的认识。此处引用知乎作者Faaany所举的例子:在一维的实数集合中,我们随便指出两个数字,如4和9,就很容易可以得到9>4。但是当到了二维实数空间中,如(1,1)和(0,3)就没有办法进行比较了。但是如果引入了范...原创 2018-09-04 20:39:02 · 3857 阅读 · 1 评论 -
决策树Decision Tree原理与实现技巧
本文出自Bin的专栏blog.csdn.net/xbinworld。决策树决策树(decision tree)是一个树结构(可以是二叉树或非二叉树)。其每个非叶节点表示一个特征属性上的测试,每个分支代表这个特征属性在某个值域上的输出,而每个叶节点存放一个类别。使用决策树进行决策的过程就是从根节点开始,测试待分类项中相应的特征属性,并按照其值选择输出分支,直到到达叶子节点,将叶子节点存放的类...转载 2018-09-06 19:25:02 · 3019 阅读 · 0 评论