2020年01月_人鱼线

05月 04月 03月 02月 01月

转载 DeepFM模型理论和实践

1、背景特征组合的挑战对于一个基于CTR预估的推荐系统，最重要的是学习到用户点击行为背后隐含的特征组合。在不同的推荐场景中，低阶组合特征或者高阶组合特征可能都会对最终的CTR产生影响。之前介绍的因子分解机(Factorization Machines, FM)通过对于每一维特征的隐变量内积来提取特征组合。最终的结果也非常好。但是，虽然理论上来讲FM可以对高阶特征组合进行建模，但实际...

2020-01-19 10:53:18 1927

转载矩阵分解之：主成分分析（PCA）

本文是在参考主成分分析（PCA）原理详解的基础上添加一些自己的理解。1.相关背景在许多领域的研究与应用中，通常需要对含有多个变量的数据进行观测，收集大量数据后进行分析寻找规律。多变量大数据集无疑会为研究和应用提供丰富的信息，但是也在一定程度上增加了数据采集的工作量。更重要的是在很多情形下，许多变量之间可能存在相关性，从而增加了问题分析的复杂性。如果分别对每个指标进行分析，分析往往是孤立...

2020-01-16 20:58:21 20317

原创矩阵分解之: 特征值分解(EVD)、奇异值分解(SVD)、SVD++

目录：1.矩阵分解 1.1 矩阵分解的产生原因 1.2矩阵分解作用 1.3矩阵分解的方法 1.4推荐学习的经典矩阵分解算法2. 特征值分解(EVD)3. 奇异值分解(SVD)4.SVD++5.SVD/SVD++在协同过滤中的应用1. 矩阵分解1.1 矩阵分解的产生原因在介绍矩阵分解之前，先让我们明确下推荐系...

2020-01-15 22:17:38 40029 6

转载 DeepFM升级版XDeepFM模型

本文参考自推荐系统遇上深度学习(二十二)--DeepFM升级版XDeepFM模型强势来袭！，在学习原文的基础上加入一些个人的理解和整理。1、引言对于预测性的系统来说，特征工程起到了至关重要的作用。特征工程中，挖掘交叉特征是至关重要的。交叉特征指的是两个或多个原始特征之间的交叉组合。例如，在新闻推荐场景中，一个三阶交叉特征为AND(user_organization=msra,item_c...

2020-01-15 09:39:56 1002 1

Ref：https://fuhailin.github.io/Wide-Deep/Wide and deep 模型是 TensorFlow 在 2016 年 6 月左右发布的一类用于分类和回归的模型，并应用到了 Google Play 的应用推荐中。wide and deep 模型的核心思想是结合线性模型的记忆能力（memorization）和 DNN 模型的泛化能力（generalizati...

2020-01-13 14:54:08 1167

原创 AdaBoost scikit-learn 算法类库参数说明

Ref：scikit-learn Adaboost类库使用小结https://www.cnblogs.com/pinard/p/6136914.html

2020-01-09 22:46:47 148

原创随机森林模型RandomForest scikit-learn参数说明

先看这个类的参数：class sklearn.ensemble.RandomForestClassifier(n_estimators=10, criterion='gini', max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=’auto...

2020-01-09 19:10:19 9124 1

原创 Python chunk读取超大文件

1. 普通文件读取方式：import pandas as pddf = pd.read_csv('./chunk_test.csv') # 默认 iterator=False,chunksize=Noneprint(df.shape,'\n',df.head())一般使用read_csv的时候，iterator是设定为False的，这个时候read_csv会把整个文件的数据读取到Da...

2020-01-02 12:33:31 7948

原创机器学习调参方法

① 网格搜索交叉验证：通常是在全量数据上做的，会自动切分成几折（有时候会注意做分层抽样去保证数据分布）。参考的kaggle kernel代码：https://www.kaggle.com/cesartrevisan/scikit-learn-and-gridsearchcv② early stopping：这个通常需要切分训练集和验证集，我们会根据验证集去确定最佳的轮次，但是除掉迭代...

2020-01-02 08:43:09 845

原创 sklearn中xgboost模块的XGBClassifier函数

# 常规参数booster gbtree 树模型做为基分类器（默认） gbliner 线性模型做为基分类器 silent silent=0时，不输出中间过程（默认） silent=1时，输出中间过程 nthread nthread=-1时，使用全部CPU进行并行运算（默认） nthread=1时，使用1个CPU进行运算。 nthread=-1 默认采用所有c...

2020-01-02 08:38:30 4068