- 博客(11)
- 资源 (2)
- 收藏
- 关注
原创 排序模型对比
LR 可以视作单层单节点的“DNN”, 是一种宽而不深的结构,能够处理高纬度稀疏问题,。 模型优点是简单、高效、可控性好,模型可解释: 所有的特征直接作用在最后的输出结果上 但是效果的好坏直接取决于特征工程的程度,需要非常精细的连续型、离散型、时间型等特征处理及特征组合。通常通过正则化等方式控制过拟合。Ref:https://tech.meituan.com/201...
2020-03-26 14:29:58 720
原创 处理正负样本不均衡问题
在原文的基础上 Ref: https://www.zhihu.com/question/27535832/answer/223882022 进行修改。1 通过过抽样和欠抽样解决样本不均衡抽样是解决样本分布不均衡相对简单且常用的方法,包括过抽样和欠抽样两种。过抽样过抽样(也叫上采样、over-sampling)方法通过增加分类中少数类样本的数量来实现样本均衡,最直接的方法是简单复制...
2020-03-15 11:49:36 5481
原创 特征工程之连续/离散特征的处理
离散特征:1.无序离散特征:one-hot encoding,比如所属国家、城市 (1)无序离散特征:one-hot encoding,比如所属国家,城市。(1)如果one-hot之后unique值不多可以不用做Embedding, (2)但是如果该特征unique值过多,比如所属国家、城市,onehot产生的矩阵过宽,这种情况下,我们的通常做法就是将其转换为embeddi...
2020-03-13 12:19:32 6142 1
原创 特征工程之连续/离散特征的处理
离散特征:无序离散特征:one-hot encoding,比如所属国家、城市无序离散特征:one-hot encoding,比如所属国家,城市。one-hot,比如所属国家、城市, 但是如果该特征unique值过多,onehot产生的矩阵过宽,所以通常采用下面的方法来减少维度也可以先做LabelEncoder将特征的不同取值区分开,然后再embedding有序离散特征:...
2020-03-09 17:52:36 2381
原创 Batch Normalization批标准化
Ref:什么是 Batch normalizationhttps://blog.csdn.net/hffhjh111/article/details/86994445深入理解Batch Normalization批标准化https://www.cnblogs.com/guoyaohua/p/8724433.html对于BN层的理解:就是 正态分布的特征--> Dens...
2020-03-09 10:56:55 333
原创 数据正则化 (data normalization) 的原理及实现 (Python sklearn)
原理数据正规化(data normalization)是将数据的每个样本(向量)变换为单位范数的向量,各样本之间是相互独立的.其实际上,是对向量中的每个分量值除以正规化因子.常用的正规化因子有 L1, L2 和 Max.假设,对长度为 n 的向量,其正规化因子 z 的计算公式,如下所示:注意:Max 与无穷范数不同,无穷范数是需要先对向量的所有分量取绝对值,然后取其中的最大值;而...
2020-03-09 08:16:24 8217
原创 过拟合的处理方法
这里仅贴出相关链接,有空时再详细补充。怎么判断欠拟合和过拟合:Ref:学习曲线——判断欠拟合还是过拟合过拟合的处理方法:从样本方面考虑:纵向上增加样本数量 横向上进行特征选择/降维 横纵都有:归一化: (1)MinMaxScaler:对列数据做(x-min)/(max-min) 变换 (2)MaxAbsScaler:对列数据做2(x-min)/(max-min...
2020-03-06 23:57:21 583
原创 全连接层的激活函数
1、全连接层当来到了全连接层之后,可以理解为一个简单的多分类神经网络(如:BP神经网络),通过softmax函数得到最终的输出。整个模型训练完毕。两层之间所有神经元都有权重连接,通常全连接层在卷积神经网络尾部。也就是跟传统的神经网络神经元的连接方式是一样的:全连接层(fully connected layers,FC)在整个卷积神经网络中起到“分类器”的作用。如果说卷积层、池化...
2020-03-06 11:11:45 28163 3
原创 推荐系统算法框架
在介绍矩阵分解之前,先让我们明确下推荐系统的场景以及矩阵分解的原理。对于推荐系统来说存在两大场景即评分预测(rating prediction)与Top-N推荐(item recommendation,item ranking)。评分预测场景主要用于评价网站,比如用户给自己看过的电影评多少分(MovieLens),或者用户给自己看过的书籍评价多少分。其中矩阵分解技术主要应用于该场景。 Top...
2020-03-05 09:24:15 1572
原创 LFM MF SVD SVD++ FM 之间的关系
Ref:https://zhuanlan.zhihu.com/p/98058812 在原文的基础上进行补充基于行为的推荐系统算法我们称之为协同过滤,包括基于邻域、基于模型(隐语义模型LFM)和基于图的随机游走。这次我们详细说说LFM模型。我们的目标是对一个user-item的评分矩阵进行一个补充,得到未知的分数,进而进行推荐。user和item是没有直接关系的,无法直接得到二者的...
2020-03-04 15:52:32 2474
原创 准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F值(F-Measure)、AUC、ROC的理解
一、准确率、精确率、召回率和 F 值(1)若一个实例是正类,但是被预测成为正类,即为真正类(True Postive TP)(2)若一个实例是负类,但是被预测成为负类,即为真负类(True Negative TN)(3)若一个实例是负类,但是被预测成为正类,即为假正类(False Postive FP)(4)若一个实例是正类,但是被预测成为负类,即为假负类(False Negat...
2020-03-03 00:06:16 34710
2010年山东省大学生电子设计竞赛本课组A、B题
2013-01-15
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人