机器学习
文章平均质量分 53
BridgeMa
这个作者很懒,什么都没留下…
展开
-
神经网络中激活函数的作用总结
神经网络中激活函数用来引入非线性因素,用来解决模型不能解决的问题。基于二分类问题展开讨论。利用单层感知机模型,可以生成一条直线,将空间内的三角形与圆形分开 对于新的样本(x1,x2),将其带入这个线性模型,得到y>0或者y<0分别对应圆形或者三角形,但是实际上这种思路是假设样本分布是线性可分的,当线性不可分时,便会效果不理想。于是我们试图组合几个不同的这种线性模型来获得更好...原创 2018-03-23 16:37:58 · 2795 阅读 · 0 评论 -
信息熵、条件熵、相对熵
以前在学习通信原理,信息论时都学习过这样的原理,但是不能从根本理解这样的公式有什么用,能解决什么问题。例如,笔者最近在看用信息论里条件熵来检测图像视频的显著性,一直就不明白这两样东西怎么就放在一块了。后面在《数学之美》,在书中看到了这些公式能够解释什么问题时,才有所领悟~~~1,信息熵(Entropy) 公式大家都不陌生吧:P(x)是变量出现的概率;以前我们可以就学到此就为止了,那个信息熵...原创 2018-04-17 14:35:17 · 778 阅读 · 0 评论 -
关于过拟合的通俗介绍
简单一句话,过拟合就是在训练集上表现比较好,在测试集上表现很差的一种现象。如下图所示:图三过度的拟合了训练数据,而没有考虑到模型的泛化能力,在训练集上的准确率和开发集上的准确率画在一个图上如下:图片引用来自吴恩达课程。发生过拟合的主要原因主要有下面三点:1.数据有噪声2.训练数据太少,有限的训练数据3.训练模型过度导致模型非常复杂往往我们的模型是在训练数据有限的情况下,找出使损失函数最小的最优模型...原创 2018-04-04 14:44:30 · 461 阅读 · 0 评论 -
京东金融登录行为识别赛题总结
一、对数据以及文件进行说明如下评判标准如下(这个式子是求F1公式的变形)二、特征工程1、由于比赛中提供了两张表,所以第一步需要将将两张表联系起来。采用的是将每个用户的交易记录与距离该交易记录时间最短的一次成功登录记录进行关联2、针对登录时间戳,登录时长与交易时长,发现在午夜发生风险的可能比较大,取时间戳的小时数作为一个特征。3、取用户发生交易的时间与用户用户的登录时间戳(前提是同一个id)取差值,...原创 2018-04-16 22:00:58 · 1664 阅读 · 1 评论 -
天池AI大赛 智能制造预测赛题
一、赛题与要求的简单介绍 (多特征少样本问题) 本次比赛提供的是生产线上不同工序的生产数据(具体代表什么含义未可知),通过这些数据构建特征,设计模型,预测与之对应的生产数值。评判标准采用MSE,计算单个样本预测值与真实值的差距,再对所有样本进行MSE求和,最后取平均作为评判标准。二、数据描述 数据包括ID列、工具列和数据列,他们有自己的命名格式。数据从形式上主要按照工...原创 2018-04-16 15:01:44 · 1521 阅读 · 0 评论 -
与sigmoid函数对应的softmax函数的应用
softmax函数的本质就是将一个K维的任意实数向量压缩(映射)成另一个K维的实数向量,其中向量中的每个元素取值都介于(0,1)之间。softmax函数形式如下:其中j=1,2,...,Ksoftmax函数经常用在神经网络的最后一层,作为输出层,进行多分类。此外,softmax在增强学习领域内,softmax经常被用作将某个值转化为激活概率,这类情况下,softmax的公式如下:其...原创 2018-04-02 16:25:02 · 807 阅读 · 0 评论 -
关于隐马尔科夫模型
常常用于分词、词性标注、命名实体识别等问题序列标注问题。一、什么是隐马尔科夫模型隐马尔科夫模型是关于时序的概率模型,描述一个隐藏的马尔科夫链随机生成不可观测的状态随机序列,再由各个状态生成一个状态观测而产生观测随机序列的过程。隐藏的马尔科夫链随机生成的状态的序列,称为状态序列;每个状态生成一个观测,而由此产生的观测随机序列称为观测序列。序列的每一个位置又可以看作成一个时刻。设Q是所有可能状态的集合...原创 2018-04-02 15:59:09 · 319 阅读 · 0 评论 -
支持向量机SVM(2)之核函数
在上一篇中,一切的推导都是基于上图这种类型,建立在数据分布是线性可分的情况,然而很多情况下都不是线性可分的。例如下图这种情况。从图中可以看出,无论哪一条线都无法将两类点分开。这个时候就要引入核函数的概念了。三、核函数上一篇文章中最后推导得到了:现在我们把它们带入到分界方程:如果我们已经求出了α与b,那么y可以写成仅仅依赖xi与xj的矢量积形式,这一点非常关键。很多时候我们需要从数据中挖掘出新的特征...原创 2018-04-02 11:28:56 · 2279 阅读 · 0 评论 -
常用的排序算法复杂度总结
图片来自于word截图原创 2018-04-01 16:12:34 · 189 阅读 · 0 评论 -
支持向量机SVM(1)
SVM非常强,可用于分类、也可用于拟合,本篇简单介绍他的原理以及推导一、线性可分:这三条直线都可以将两类不同的点区分开,那么选那条线区分效果最好呢? 直观的看起来是a,因为相比之下b与c离样本中的一些点太近了,很难有绝对把握说这个点在超平面的这边或者那边就一定是不同的类,因为超平面稍微一动就会改变这些点的分类属性。所以,应该使得产平面距离不同类的点尽可能大,这也就是最大函数距离的由来。 ...原创 2018-04-01 16:09:22 · 269 阅读 · 0 评论 -
关于推荐系统<2>之协同过滤(CF)
协同过滤是目前推荐系统中应用最广泛的技术(基于item与基于用户两种)。它一般采用最近邻技术,利用用户的历史喜好信息计算用户之间的距离,然后 利用目标用户的最近邻居用户对商品评价的加权评价值来预测目标用户对特定商品的喜好程度,系统从而根据这一喜好程度来对目标用户进行推荐。协同过滤最大优 点是对推荐对象没有特殊的要求,能处理非结构化的复杂对象,如音乐、电影。和基于内容的过滤方法相比,协同过滤具有如下...原创 2018-03-30 22:13:21 · 627 阅读 · 0 评论 -
机器学习的几种常用的梯度下降
以线性回归为代表的,我们进行模型训练时常采用梯度下降的方法,包括随机梯度下降(SGD)批量梯度下降(BGD)小批量梯度下降(MBGD)假设线性回归模型为:对应的损失函数为:二维参数对应的效果图如下:1.BGD我们的目的是要误差函数尽可能的小,即求解weights使误差函数尽可能小。首先,我们随机初始化weigths,然后不断反复的更新weights使得误差函数减小,直到满足要求时停止。这里更新算法...原创 2018-03-24 15:36:07 · 817 阅读 · 0 评论 -
神经网络反向传播方法
一个神经网络的符号及相关函数定义如下图:例如一个实际的神经网络如下图表示:走一边正向传播如下图同理可以得到最终得到的损失为:训练目标是使得损失达到最小,这也就是反向传播的来历。反向传播实际上用到的是梯度(沿梯度方向下降最快)下降法中的链式原理。这时候我们针对W求偏导,然后得到下面的公式:将上式中插入激活函数:可以看出对于不同的激活函数求导结果是不一样的(梯度消失梯度爆炸可以在这里了解)同理还有下面...原创 2018-03-24 14:45:10 · 283 阅读 · 0 评论 -
关于推荐系统(1)之基于内容的推荐
常用的推荐算法包括基于内容的推荐、协同过滤推荐、关联规则推荐、基于效用推荐、基于知识推荐和组合推荐。下面对几种推荐算法做简单总结:1.基于内容的推荐:CB是最早被使用的推荐算法,它的思想非常简单:根据用户过去喜欢的物品(本文统称为 item),为用户推荐和他过去喜欢的物品相似的物品。而关键就在于这里的物品相似性的度量,这才是算法运用过程中的核心。 CB最早主要是应用在信息检索系统当中,所以...原创 2018-03-29 22:17:03 · 1184 阅读 · 0 评论 -
朴素贝叶斯分类器
朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的数据集,首先基于特征条件独立假设学习输入/输出的联合概率分布;然后基于这种模型,对于给定的输入x,利用贝叶斯定理求出后验概率最大的输出y,朴素贝叶斯法实现简单,学习与预测概率都还可以,可用于很多分类场景。 给定数据集T={(x1,y1),(x2,y2),、、、、(xN,yN)},通过训练数据集学习联合概率分布...原创 2018-08-13 09:02:12 · 179 阅读 · 0 评论