- 博客(10)
- 资源 (2)
- 收藏
- 关注
转载 DeepFM模型理论和实践
1、背景特征组合的挑战对于一个基于CTR预估的推荐系统,最重要的是学习到用户点击行为背后隐含的特征组合。在不同的推荐场景中,低阶组合特征或者高阶组合特征可能都会对最终的CTR产生影响。之前介绍的因子分解机(Factorization Machines, FM)通过对于每一维特征的隐变量内积来提取特征组合。最终的结果也非常好。但是,虽然理论上来讲FM可以对高阶特征组合进行建模,但实际...
2020-01-19 10:53:18
1927
转载 矩阵分解之:主成分分析(PCA)
本文是在参考主成分分析(PCA)原理详解的基础上 添加一些自己的理解。1.相关背景在许多领域的研究与应用中,通常需要对含有多个变量的数据进行观测,收集大量数据后进行分析寻找规律。多变量大数据集无疑会为研究和应用提供丰富的信息,但是也在一定程度上增加了数据采集的工作量。更重要的是在很多情形下,许多变量之间可能存在相关性,从而增加了问题分析的复杂性。如果分别对每个指标进行分析,分析往往是孤立...
2020-01-16 20:58:21
20317
原创 矩阵分解之: 特征值分解(EVD)、奇异值分解(SVD)、SVD++
目录:1.矩阵分解 1.1 矩阵分解的产生原因 1.2矩阵分解作用 1.3矩阵分解的方法 1.4推荐学习的经典矩阵分解算法2. 特征值分解(EVD)3. 奇异值分解(SVD)4.SVD++5.SVD/SVD++在协同过滤中的应用1. 矩阵分解1.1 矩阵分解的产生原因在介绍矩阵分解之前,先让我们明确下推荐系...
2020-01-15 22:17:38
40029
6
转载 DeepFM升级版XDeepFM模型
本文参考自 推荐系统遇上深度学习(二十二)--DeepFM升级版XDeepFM模型强势来袭!,在学习原文的基础上加入一些个人的理解和整理。1、引言对于预测性的系统来说,特征工程起到了至关重要的作用。特征工程中,挖掘交叉特征是至关重要的。交叉特征指的是两个或多个原始特征之间的交叉组合。例如,在新闻推荐场景中,一个三阶交叉特征为AND(user_organization=msra,item_c...
2020-01-15 09:39:56
1002
1
转载 推荐系统CTR实战——Wide & Deep
Ref:https://fuhailin.github.io/Wide-Deep/Wide and deep 模型是 TensorFlow 在 2016 年 6 月左右发布的一类用于分类和回归的模型,并应用到了 Google Play 的应用推荐中。wide and deep 模型的核心思想是结合线性模型的记忆能力(memorization)和 DNN 模型的泛化能力(generalizati...
2020-01-13 14:54:08
1167
原创 AdaBoost scikit-learn 算法类库 参数说明
Ref:scikit-learn Adaboost类库使用小结https://www.cnblogs.com/pinard/p/6136914.html
2020-01-09 22:46:47
148
原创 随机森林模型RandomForest scikit-learn参数说明
先看这个类的参数:class sklearn.ensemble.RandomForestClassifier(n_estimators=10, criterion='gini', max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=’auto...
2020-01-09 19:10:19
9124
1
原创 Python chunk读取超大文件
1. 普通文件读取方式:import pandas as pddf = pd.read_csv('./chunk_test.csv') # 默认 iterator=False,chunksize=Noneprint(df.shape,'\n',df.head())一般使用read_csv的时候,iterator是设定为False的,这个时候read_csv会把整个文件的数据读取到Da...
2020-01-02 12:33:31
7948
原创 机器学习调参方法
① 网格搜索交叉验证:通常是在全量数据上做的,会自动切分成几折(有时候会注意做分层抽样去保证数据分布)。参考的kaggle kernel代码:https://www.kaggle.com/cesartrevisan/scikit-learn-and-gridsearchcv② early stopping:这个通常需要切分训练集和验证集,我们会根据验证集去确定最佳的轮次,但是除掉迭代...
2020-01-02 08:43:09
845
原创 sklearn中xgboost模块的XGBClassifier函数
# 常规参数booster gbtree 树模型做为基分类器(默认) gbliner 线性模型做为基分类器 silent silent=0时,不输出中间过程(默认) silent=1时,输出中间过程 nthread nthread=-1时,使用全部CPU进行并行运算(默认) nthread=1时,使用1个CPU进行运算。 nthread=-1 默认采用所有c...
2020-01-02 08:38:30
4068
2010年山东省大学生电子设计竞赛本课组A、B题
2013-01-15
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人