自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 资源 (2)
  • 论坛 (1)

原创 DeepFM对FM、FNN、PNN、wide&deep模型

1. CTR预估CTR预估数据特点:1. 输入中包含类别型和连续型数据。类别型数据需要one-hot,连续型数据可以先离散化再one-hot,也可以直接保留原值2. 维度非常高3. 数据非常稀疏4. 特征按照Field分组CTR预估重点在于学习组合特征。注意,组合特征包括二阶、三阶甚至更高阶的,阶数越高越复杂,越不容易学习。Google的论文研究得出结论:高阶和低阶的组合特征都非...

2020-03-31 17:45:25 1012

原创 排序模型对比

LR 可以视作单层单节点的“DNN”, 是一种宽而不深的结构,能够处理高纬度稀疏问题,。 模型优点是简单、高效、可控性好,模型可解释: 所有的特征直接作用在最后的输出结果上 但是效果的好坏直接取决于特征工程的程度,需要非常精细的连续型、离散型、时间型等特征处理及特征组合。通常通过正则化等方式控制过拟合。Ref:https://tech.meituan.com/201...

2020-03-26 14:29:58 336

原创 处理正负样本不均衡问题

在原文的基础上 Ref: https://www.zhihu.com/question/27535832/answer/223882022 进行修改。1 通过过抽样和欠抽样解决样本不均衡抽样是解决样本分布不均衡相对简单且常用的方法,包括过抽样和欠抽样两种。过抽样过抽样(也叫上采样、over-sampling)方法通过增加分类中少数类样本的数量来实现样本均衡,最直接的方法是简单复制...

2020-03-15 11:49:36 939

原创 特征工程之连续/离散特征的处理

离散特征:1.无序离散特征:one-hot encoding,比如所属国家、城市 (1)无序离散特征:one-hot encoding,比如所属国家,城市。(1)如果one-hot之后unique值不多可以不用做Embedding, (2)但是如果该特征unique值过多,比如所属国家、城市,onehot产生的矩阵过宽,这种情况下,我们的通常做法就是将其转换为embeddi...

2020-03-13 12:19:32 443

原创 常用激活函数理解与总结

从左到右 梯度消失-->zero-centered -->指数运算一、sigmoid缺点1:在深度神经网络中梯度反向传递时导致梯度爆炸和梯度消失,其中梯度爆炸发生的概率非常小,而梯度消失发生的概率比较大。首先来看Sigmoid函数的导数,如下图所示: 缺点2:Sigmoid 的 output 不是0均值(即zero-centered)。这是不可取的,因为这会导致后一层...

2020-03-11 16:50:54 805

原创 特征工程之连续/离散特征的处理

离散特征:无序离散特征:one-hot encoding,比如所属国家、城市无序离散特征:one-hot encoding,比如所属国家,城市。one-hot,比如所属国家、城市, 但是如果该特征unique值过多,onehot产生的矩阵过宽,所以通常采用下面的方法来减少维度也可以先做LabelEncoder将特征的不同取值区分开,然后再embedding有序离散特征:...

2020-03-09 17:52:36 559

原创 深入理解Batch Normalization批标准化

Ref:什么是 Batch normalizationhttps://blog.csdn.net/hffhjh111/article/details/86994445深入理解Batch Normalization批标准化https://www.cnblogs.com/guoyaohua/p/8724433.html对于BN层的理解:就是 正态分布的特征--> Dens...

2020-03-09 10:56:55 79

原创 数据正则化 (data normalization) 的原理及实现 (Python sklearn)

原理数据正规化(data normalization)是将数据的每个样本(向量)变换为单位范数的向量,各样本之间是相互独立的.其实际上,是对向量中的每个分量值除以正规化因子.常用的正规化因子有 L1, L2 和 Max.假设,对长度为 n 的向量,其正规化因子 z 的计算公式,如下所示:注意:Max 与无穷范数不同,无穷范数是需要先对向量的所有分量取绝对值,然后取其中的最大值;而...

2020-03-09 08:16:24 411

原创 过拟合的处理方法

这里仅贴出相关链接,有空时再详细补充。怎么判断欠拟合和过拟合:Ref:学习曲线——判断欠拟合还是过拟合过拟合的处理方法:从样本方面考虑:纵向上增加样本数量 横向上进行特征选择/降维 横纵都有:归一化: (1)MinMaxScaler:对列数据做(x-min)/(max-min) 变换 (2)MaxAbsScaler:对列数据做2(x-min)/(max-min...

2020-03-06 23:57:21 114

原创 全连接层的激活函数

1、全连接层当来到了全连接层之后,可以理解为一个简单的多分类神经网络(如:BP神经网络),通过softmax函数得到最终的输出。整个模型训练完毕。两层之间所有神经元都有权重连接,通常全连接层在卷积神经网络尾部。也就是跟传统的神经网络神经元的连接方式是一样的:全连接层(fully connected layers,FC)在整个卷积神经网络中起到“分类器”的作用。如果说卷积层、池化...

2020-03-06 11:11:45 4691

原创 推荐系统算法框架

在介绍矩阵分解之前,先让我们明确下推荐系统的场景以及矩阵分解的原理。对于推荐系统来说存在两大场景即评分预测(rating prediction)与Top-N推荐(item recommendation,item ranking)。评分预测场景主要用于评价网站,比如用户给自己看过的电影评多少分(MovieLens),或者用户给自己看过的书籍评价多少分。其中矩阵分解技术主要应用于该场景。 Top...

2020-03-05 09:24:15 388

原创 LFM MF SVD SVD++ FM 之间的关系

Ref:https://zhuanlan.zhihu.com/p/98058812 在原文的基础上进行补充基于行为的推荐系统算法我们称之为协同过滤,包括基于邻域、基于模型(隐语义模型LFM)和基于图的随机游走。这次我们详细说说LFM模型。我们的目标是对一个user-item的评分矩阵进行一个补充,得到未知的分数,进而进行推荐。user和item是没有直接关系的,无法直接得到二者的...

2020-03-04 15:52:32 940

原创 准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F值(F-Measure)、AUC、ROC的理解

一、准确率、精确率、召回率和 F 值(1)若一个实例是正类,但是被预测成为正类,即为真正类(True Postive TP)(2)若一个实例是负类,但是被预测成为负类,即为真负类(True Negative TN)(3)若一个实例是负类,但是被预测成为正类,即为假正类(False Postive FP)(4)若一个实例是正类,但是被预测成为负类,即为假负类(False Negat...

2020-03-03 00:06:16 778

2010年山东省大学生电子设计竞赛本课组A、B题

竞赛前请仔细阅读本网站竞赛通知栏的 2010 年山东大学生高教社 XILINX 杯电子设计竞赛 规则和纪律 A题 瞬态响应测试仪 【本科组】 一、任务 要求采用指定的 FPGA 实验平台(含 EXCD-1 开

2013-01-15

智能小车报告

关于电子设计大赛的智能小车报告,报告内容详细,值得您参考

2013-01-15

人鱼线的留言板

发表于 2020-01-02 最后回复 2020-01-02

空空如也
提示
确定要删除当前文章?
取消 删除