- 博客(7)
- 问答 (1)
- 收藏
- 关注
转载 机器学习相似度
相似度意义在机器学习的各种领域都会遇到需要去衡量两个样本或者两个特征之间的关系的情况,因此就需要一种准则去数值化反映这种差别–相似度。相似度的计算方法有很多种,每种都有着各自的优缺点。下面详细展开介绍几种重要的相似度计算方法欧几里得相似度欧几里得相似度是生活中碰到最多的一种。在数学中,欧几里得距离或欧几里得度量是欧几里得空间中两点间“普通”(即直线)距离。欧几里得距离有时候有称欧氏距离,在数据分析及挖掘中经常会被使用到,例如聚类或计算相似度。如果我们将两个点X1,X2X_1,X_2X1,X2分
2020-05-21 13:34:44 904
原创 推荐问题中ID类特征的处理办法
ID类特征处理办法什么是id类特征onehottfidfID类特征embeddingembedding直接嵌入到模型中ids通过上下文关系转化为embedding什么是id类特征举腾讯2020年的广告大赛为例子如上图所示:原始数据经过脱敏之后是一些id数字类的特征,这些每一个creative_id代表一种广告,若将id类特征onehot之后将会得到很大的类矩阵,接近300万维,这是不可能做后续工作的。因此需要通过id2embedding方法将id类特征变成低维稠密的embedding向量。oneh
2020-05-19 10:11:23 3572
原创 GBDT分类问题
GBDT分类问题GBDT处理分类问题的做法类似于LR方法.LR:P(y=1∣X)=sigmoid(WTX)=11+e−WTX(1)LR:P(y=1|X)=sigmoid(W^TX)=\frac{1}{1+e^{-W^TX}} \qquad(1)LR:P(y=1∣X)=sigmoid(WTX)=1+e−WTX1(1)GBDT:P(y=1∣X)=sigmoid(G(X))(2)GBDT:P...
2020-05-06 20:00:01 488
原创 神经网络反向求导不可导情况处理
神经网络反向求导不可导情况处理激活函数不可导池化不可导针对平均池化:max池化激活函数不可导深度学习算法通常需要进行反向求导,来更新模型的参数,这就要求激活函数满足处处可导的性质,例如传统的sigmoid函数等。但是,为了解决梯度消失等问题提出的relu系列函数却不满足处处可导性质。relu(x)=max(x,0)relu(x)=max(x,0)relu(x)=max(x,0)针对这...
2020-05-05 18:09:40 3243
原创 推荐系统:CTR模型学习总结--LR、FM、FFM、Wide and Deep、DeepFM
推荐系统概括推荐系统方法综述推荐系统的目的评价指标AccuracyloglossAUCF1 scoreCollaborative FliterCTRLRPOLY2FMFFM小结LR+GBDTLR+DNNWide and deepDeepFM推荐系统方法综述推荐系统的目的评价指标Accuracyaccuracy=预测正确的样本数总样本数accuracy=\frac{预测正确的样本数}{总样...
2020-05-04 10:48:16 1139
原创 python树结构基础 包含广度遍历和深度遍历
欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦:Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I...
2018-09-06 20:08:51 122
原创 基于gini系数的决策树代码
import giniimport treeimport operator from math import pow def cal_gini_index(data): total_sample=len(data) if total_sample==0: return 0 label_counts=label_unique_cnt(d...
2018-08-13 15:20:57 1943
空空如也
f2py将fortran变成python模块问题。
2018-09-17
TA创建的收藏夹 TA关注的收藏夹
TA关注的人