starry0001-CSDN博客

原创万字详述推荐系统经典模型DCN,DCN_v2,PNN

公众号：ChallengeHub(持续分析机器学习，数据挖掘，推荐系统，NLP方面的知识)之前文章介绍了特征交叉的一些方式和几种推荐系统中关于特征交叉的一些论文。上篇文章中主要介绍了wide&deep，deepFM，和NFM模型。其中wide&deep，和deepFM模型的特征交叉就一层，属于浅度的特征交叉，NFM可以实现更深的特征交叉。这篇文章将介绍两种经典的推荐模型，它们可以实现更深度的特征交叉。分别为DCN,DCN_v2和PNN。1：DCN论文名称：Deep & Cros

2022-03-29 20:49:35 5932 1

原创推荐系统中特征交叉模型之——DeepWide/DeepFM/NFM

前言上篇文章中我们引入了推荐系统中特征交叉的概念，以及介绍了一些常见的特征交叉方法，这篇文章我们将详细地讨论一下推荐系统中特征交叉地模型，他们的特点，以及他们为什么会这样。本文中介绍的模型有Wide & Deep，deepFM，NFM，以及AFM和相应地拓展。Wide & Deep首先附上Wide&deep的模型结构，看起来很简单，左边时一个线性模型，右边时一个DNN模型。该模型采用线性部分提升模型的记忆能力，同时采用DNN部分提升模型的泛化能力。与DNN部分相比，Wide

2022-03-21 23:59:19 1094

原创推荐系统中特征交叉的一些事儿

前言我一开始是学习树模型的，大家了解树模型就知道树模型玩的就是特征，从我个人角度来说，一般是用特征去拟合参数，因此我做比赛的时候一般不怎么调参。工作之前我对推荐系统并不了解，更别说里面的各种精排模型了。刚开始工作之后会浏览一些业内比较出名的模型，但是看的大多是YouTuBeDNN，DIN，DIEN等，其实我在看这些论文的或者相关解读的时候就很郁闷，特征呢？这些模型都不会介绍推荐系统中的各种特征处理以及交叉等方法。一度让我以为只要使用几个id类特征就可以取得十分好的结果，类比的话就是想协同过滤,矩阵分解等

2022-03-15 00:34:59 5065

原创推荐系统中的bais系统(二)—Select Bais和Exposure Bias

介绍这次给大家介绍的是推荐系统的中的Select Bais与Exposure Bais。虽然这两种Bais一个是由系统造成的，一个是有用户的反馈造成的，但是本质上都是一样的：从一个小的样本中去估计一个整体的状态产生的偏差。首先我们从一个小case中来介绍下Select Bais:Case来源：Recommendations as Treatments: Debiasing Learning and Evaluation假设我们有两个用户，一个是Horror Lovers，会给Horror类的电影打

2022-01-29 15:31:01 1589

原创推荐系统中的Bias系列(一)—position bias

推荐系统主的Bias系列(一)—position bias背景：推荐系统中bias有很多，position bias 算是非常常见的一种，很容易被大家感知到。在信息流或者淘宝等推荐场景中，用户一刷可能会出现多个推荐内容，一版来说是根据排序的结果排列显示给用户。但是，用户对不同位置上的内容注意力是不一样的(单纯地说按照用户观察到的概率其实不太准确)，导致用户对于每个位置的内容倾向性有差异，从而就会产生一个偏差。复杂点说就是我们的训练样本中都是基于每个位置的样本(消费数据中其实就已经有了位置数据了)，推理中

2022-01-29 15:10:52 2343

原创如何采用FM进行召回

FM算法大家应该比较熟悉吧，如果不熟悉的话可以看看张俊林大佬的这篇文章：https://zhuanlan.zhihu.com/p/58160982(不知道为啥，想到FM我就想到微博推荐)。看完了那我们就可以复习一下：FM：y=w0+∑i=1nwixi+∑i=1n∑j=i+1n<vi,vj>xixjFM：y=w_0+\sum_{i=1}^{n}w_ix_i+\sum_{i=1}^{n}\sum_{j=i+1}^{n}<v_i,v_j>x_ix_jFM：y=w0+∑i=1nwix

2022-01-13 19:06:47 1420 1

原创假设与检验

假设检验假设检验是统计推断的一种重要形式，其任务是通过样本对未知的总体分布特征作出合理的推断。先对总体分布中的某些参数或者对总体分布类型做某种假设，然后根据样本值做出接受还是拒绝所做假设的结论。相关概念原问题假设问题假设是做假设检验的第一步，一般讲要检验的假设称为原假设，记为: H0H_0H0,则另外一个为备选假设，指拒绝原假设时的假设，记为：H1H_1H1。假设一般分为双边假设和单边假设。双边假设：H0:μ=μ0H_0 : \mu=\mu_0H0:μ=μ0, H1:μ≠μ0H

2022-01-13 18:55:07 1336

原创贝叶斯统计

贝叶斯统计1 概率论和统计学的区别概率论和统计学解决的问题是互逆的。概率论，已经概率模型，模型的不确定性由概率分布来描述，概率论要回答的问题是该过程产生某个结果的可能性有多大这个问题。统计学，概率模型是未知的，但是已经一系列该过程产生的结果的观测值，希望通过这些观测值来推断这个过程中的不确定性是怎么样的？即推断该过程的概率分布。已知概率模型来精确计算各种结果的可能性就是概率论，根据已有的结果来推断模型的不确定性就是统计学概率论有唯一的答案，但是统计学更像是一门艺术。2 古典统计学和贝叶斯统计学

2022-01-13 18:54:38 1643

原创 PCA与SVD

PCA与SVDPCA介绍和基本思想主成分分析(PCA)是一种利用正交变换把由线性相关变量表示的观测数据转化为少数几个由线性无关变量表示的数据。在主成分分析中，首先对给定的数据进行规范化，使得数据的每一变量的平均值为0，方差为1。之后对数据进行正交变换，原来由线性相关变量表示的数据，通过正交变换变成若干个线性无关的新变量表示的数据，新变量是可能的正交变换中变量的方差最大的，方差表示在新变量上信息的大小，将变量依次成为第一主成分，第二主成分。PCA的相关定义总体主成分分析的定义：1 系数

2022-01-13 18:53:56 407

原创集成树模型系列之一——随机森林

集成树模型系列之一——随机森林随机森林一般会被认为集成树模型的开端，虽然现在工业或者比赛中都很少会被应用，学习集成树模型都绕不过它，它的一些思想被广泛地应用到后面的集成树模型中。随机森林这个取名非常地贴切，涵括了它最重要的2个特征：“随机”，“森林”。森林顾名思义肯定涵盖了很多棵树，随机森林也恰是很多棵决策数组合而成的。那么它是怎么组合而成的呢？我们先引入几个概念：一：bagging和boosting。1：Bagging即套袋法，在多数情况下，bagging 方法提供了一种非常简单的方式来对单一模

2021-10-26 23:56:32 605

原创万字长文记录我的leetcode辛酸史

时间在2021年6月12号，由于端午节回家了，只有一个轻薄本，做不了我被虐待体无完肤的微信赛。加上前几天看了下重楼大哥打leetcode周赛的视频，看的我热血澎湃，由于重楼大哥答题速度很快，于是我看的也很快，给了我一种我上我也行的错觉，于是今天下午就登上了好久不登录的leetcode账号。实打实的菜鸟一枚。由于是周六，所以并没有周赛，所以只能做做上周(244周)的题：首先进入第一题：看了几眼后明白了这个题目就判断一个正方形的矩阵旋转0°，90°，180°，270°之后与目标的target是否一样

2021-06-13 12:08:43 206

原创决策树代码代码——python源代码，看完你就完全懂了

决策树决策树在周志华的西瓜书里面已经介绍的很详细了(西瓜书P73-P79)，那也是我看过讲的最清楚的决策树讲解了，我这里就不献丑了，这篇文章主要是分享决策树的代码。在西瓜书中介绍了三种决策树，分别为ID3,C4.5和CART三种决策树，三种树出了分裂的计算方法不一样之外，其余的都一样，大家可以多看看书，如果有什么不清楚的可以看看我的代码，决策树的代码算是很简单的了，我有朋友面试的时候就被要求写决策树代码。话不多说了，下面开始吧。本篇文章的数据来自于西瓜中的西瓜数据，也是我纯手打下来的。下面一起看看代码

2021-05-20 23:59:29 5558

原创梧桐杯重庆赛道B榜第二名开源代码

梧桐杯重庆赛道B榜第二名开源代码数据读取：特征工程建模继上次的金融赛道Top1开源后，这次给大家贡献的是城市赛道B榜第二名的代码。该代码来自我们ChallengeHub的队伍(不是吧asir,Winto还有初九)，感谢他们的开源(全部代码，无任何私藏)。玩过该比赛的人应该也知道，该赛道其实前排差距很小，并且AB榜之间其实还是有一些差距的，最后的得分其实还是需要凭借一点运气的，因此开源代码仅供大家参考，学习一下特征工程的思路。废话不多说，直接开始吧。首先比赛链接：https://js.dclab.run

2021-05-20 23:38:19 1182

原创隐形马尔可夫链代码——python源代码，看完你就完全懂了

隐形马尔可夫链代码隐形马尔可夫链在李航的统计学习方法里面已经介绍的很详细了，我这里就不献丑了，这篇文章主要是分享隐形马尔可夫链的代码。隐形马尔可夫有三个问题：1、概率计算问题class HMM1: def __init__(self): self.A=[[0,1,0,0],[0.4,0,0.6,0],[0,0.4,0,0.6],[0,0,0.5,0.5]] ##转移概率 self.B=[[0.5,0.5],[0.3,0.7],[0.6,0.4],[

2021-04-24 23:25:41 1428

原创逻辑回归灵魂拷问之(二)——渐入佳境

逻辑回归灵魂拷问之(二)——渐入佳境在上篇文章(小试牛刀)中我们讲述了一些逻辑回归的常见问答，这篇文章还是继续上篇文章继续深入挖掘逻辑回归的常见问题。1、逻辑回归的为什么采用交叉熵的损失函数这个一般是通过极大似然估计推导出来的。由于最终的结果服从伯努利分布，我们有：P(Y=1∣x)=p(x)P(Y=1|x)=p(x)P(Y=1∣x)=p(x)P(Y=0∣x)=1−p(x)P(Y=0|x)=1-p(x)P(Y=0∣x)=1−p(x)可以得到似然函数：L(w)=Π[p(xi)yi(1−p(xi))1

2021-04-24 23:14:14 269

原创逻辑回归灵魂拷问之(一)——小试牛刀

逻辑回归灵魂拷问—你思考过了没有？逻辑回归几乎是最常见的机器学习模型了，每个初学者来说都是必须学习的机器学习模型，简单的推导再加上优雅的模型，很容易被人所理解。值得注意的是，就是这么简单的模型，在各种应届实习或者工作面试中经常会被面试官提到。它是否真的如你想象的如此简单，有什么地方是你在学习的过程中丝毫没有注意到的，现在让我们一起深入地了解下它吧。1、基础概念本篇文章主要是讲解学习逻辑回归时不容易想到的问题，因此对于机器学习的公式推导啥的就不不仔细展开了。假设背景：预测值y服从伯努利分布激活函数：

2021-04-15 22:45:26 208

原创 PySpark四：机器学习

PySpark四：机器学习前面几章介绍了Pyspark的概念与基础的操作，没有看过的朋友可以找我之前发布的文章。者章介绍的是如何采用Pyspark进行机器学习，说实话采用Pyspark进行机器学习的话确实没有直接采用Python来的方便，不过Pyspark可以更加方便地与数据打交道，在一些环境地部署中会更加地容易。废话不多说了，让我们开始机器学习吧。1、数据读取与探查第一步数据读取，这里之前都介绍过了。from pyspark.sql import SparkSessionspark=Spark

2021-04-14 20:06:53 1798

原创 PySpark：结构化流

PySpark三：结构化流很多人应该已经听说过spark中的Streaming数据这个概念，这也是sprak的亮点之一。这章我们就来简单的介绍spark中Streaming的概念以及pyspark中Streaming数据的一些简单操作方法。如果是直接观看这篇文章的朋友可以先观看一下我之前的两篇文章，里面会有Pyspark基础的操作语法和hadoop环境的配置(不配置hadoop环境的话是无法运行这章的代码的)首先我们来介绍一些基础的概念：1、Batch 与 StreamBatch data与Str

2021-04-07 22:05:37 506

原创数组两端取数问题中的先手优势

数组两端取数问题中的先手优势一：问题背景今天给大家分享一个LeetCode的算法题，其实不是出自于leetcode，出自我们ChallengeHub公众号同学的面试题目。二：问题描述已知任意一个正整数的数组nums，它满足两个条件：a、元素的个数是偶数，b、所有数据的和为奇数现在指定A,B两个人轮流从这个数组中取数，但是每个人只能从首或尾选择1个。两人依次拿完之后，各自将其手上所有的数字加起来，谁的和大谁取得胜利。例子： [5,3,4,5] A先选择5，B也...

2021-03-28 23:18:01 1937

原创 pyspark(二)——pyspark的语法

pyspark(二)——pyspark的语法原创StarryChallengeHub公众号pyspark(二)——pyspark的语法这是pyspark学习的第二章，上节中我们已经介绍了pyspark的安装与简单的语法，本篇文章也是pyspark语法的介绍，给大家更加详细的介绍pyspark的数据处理。废话不多说，现在就开始吧。一：聚合操作一：groupby groupby就是分类聚合操作，在结构化的数据处理中是非常常见的操作，那么在pyspar...

2021-03-14 20:53:43 1324

原创 pyspark学习(一)—pyspark的安装与基础语法

pyspark学习(一)原创StarryChallengeHub公众号一 Pysaprk的安装最近想学pyspark，于是想起了要更这个系列，由于本人也是不是特别熟悉，如果有什么错误的地方希望大家多多见谅，要是指正的话那就更好了。条件简陋，只有一台笔记本，于是该系列应该全部都是在本地运行了。首先，pyspark的安装，单机版的Pyspark安装起来也十分简单。1pipinstallpyspark 如果出现错误可能是pip版本原因，可以输入以下...

2021-03-07 14:39:25 4058

原创 Kaggle系列- Russia房产价格预测top1%(22/3270)方案总结

Kaggle系列- Russia房产价格预测top1%(22/3270)方案总结原创致GreatChallengeHub公众号一起加入这次沉浸式学习吧,本次分享的方案基本上包好了结构化数据比赛的基本流程：数据分析、数据预处理，特征工程、模型训练以及模型融合，大家可以留在周末学习一波。比赛名称:Sberbank Russian Housing Market 比赛链接：https://www.kaggle.com/c/sberbank-russian-housing-market1...

2021-03-07 14:30:41 784

原创 Kaggle系列-Tweet Sentiment Extraction第一名方案

Kaggle系列-Tweet Sentiment Extraction第一名方案原创致GreatChallengeHub公众号比赛链接：https://www.kaggle.com/c/tweet-sentiment-extraction/overview1 赛题背景“My ridiculous dog is amazing。” [sentiment：positive]由于各种推文无时无刻都在传播，因此很难说出一条特定推文背后的情绪是否会因为负面影响而影响公司，个人品牌的病...

2021-03-07 14:19:27 423

原创 CCF2020企业非法集资风险预测-季军方案

CCF2020企业非法集资风险预测-季军方案原创四位靓仔ChallengeHub公众号大家好，我们是四位靓仔团队，团队成员有：致Great、lrhao、姜小帅、朋飞，感谢队友们的辛勤付出；此次赛题有四千多人参加、三千多只队伍，作为常见的风控模型，也是最卷的赛题，本次比赛也是在答辩之后取得季军的成绩。01 赛题背景非法集资严重干扰了正常的经济、金融秩序，使参与者遭受经济损失，甚至生活陷入困境，极易引发社会不稳定和大量社会治安问题，甚至引发局部地区的社会动荡。 ...

2021-03-06 23:00:06 1669 2

原创 CCF2020大数据时代的Serverless工作负载预测-亚军方案

CCF2020大数据时代的Serverless工作负载预测-亚军方案原创WintoMTChallengeHub公众号比赛链接：https://www.datafountain.cn/competitions/468大家好，我们是湘菜是真的辣团队，团队成员有：WintoMT、不是吧啊sir、lrhao、cy和小熊，感谢队友的辛勤付出。历时3个多月的CCF大数据与计算智能大赛总算落下了帷幕，比赛过程中历经各种波折，最终我们获得了A榜第二，B榜第三的成绩。1：赛题背景云计算时代，...

2021-03-06 22:53:17 1031

原创 GAN对抗网络入门教程

2020CCF虚拟身份归一处理性能优化-冠军方案原创翼数所普拉斯ChallengeHub1月25日收录于话题#最优化竞赛开源4个2020CCF虚拟身份归一处理性能优化-冠军方案团队介绍本次冠军方案由翼数所普拉斯团队分享，该团队在2020CCF数据湖赛道也取得了亚军成绩，让我们看看最优化大佬的专属自己的一套解决方案吧！学废了你也是冠军潜力种子选手！赛题链接https://www.datafountai...

2021-03-06 22:38:51 881

原创 2020CCF元信息发现与分析-亚军方案

2020CCF元信息发现与分析-亚军方案团队介绍续接上篇大佬的冠军文章，本篇亚军方案来自大佬的另一支队伍「别忘了我们是学控制的」团队，继续来学习大佬的解决思路吧！赛题链接https://www.datafountain.cn/competitions/485赛题背景和任务背景：数据湖分析（阿里云数据湖：https://www.aliyun.com/product/datalakeanalytics）是目前炙手可热的、全新的大数据方向，主要在低成本、无限容量的对象存储（比如阿里云OSS）系.

2021-03-01 10:41:07 234 2

原创 2020CCF虚拟身份归一处理性能优化-冠军方案

2020CCF虚拟身份归一处理性能优化-冠军方案团队介绍本次冠军方案由翼数所普拉斯团队分享，该团队在2020CCF数据湖赛道也取得了亚军成绩，让我们看看最优化大佬的专属自己的一套解决方案吧！学废了你也是冠军潜力种子选手！赛题链接https://www.datafountain.cn/competitions/464/datasets赛题背景和任务背景：随着近年来互联网的高速发展,各种类型多样的网络应用程序呈现爆炸式增长,人们对于互联网的依赖迅速增长,与现实社会不同的是,用户可以通过网.

2021-02-28 22:55:23 479

原创 CCF2020问答匹配比赛：如何只用“bert”夺冠

CCF2020问答匹配比赛：如何只用“bert”夺冠团队介绍：看我看啥成员1：许明明中国石油大学成员2：刘猛南京大学非常感谢第一名“看我干啥”分享的方案原文：https://xv44586.github.io/2021/01/20/ccf-qa-2/#sai-ti作者：看我干啥代码链接：https://github.com/xv44586/ccf_2020_qa_match公众号：ChallengeHubccf问答匹配比赛也结束了一段时间了，这篇算是一个下篇吧，总结一下后期优（夺）

2021-02-28 21:27:04 727

原创自动化数据分析框架比较—EDA Is All You Need

自动化数据分析框架比较—EDA Is All You Need介绍AutoVizPandas ProfilingSweetVizD-TaleDataprep介绍公众号：ChallengeHub本文主要给大家介绍一些顶级的自动话EDA工具，并且通过实例展示具体效果。代码链接：https://www.kaggle.com/andreshg/automatic-eda-libraries-comparisson/notebookAutoVizAutoViz在众多免费软件Pythonic Rapid ED

2021-02-28 20:42:43 624

qq_39158406的博客