rollingd-CSDN博客

原创 2020-12-04

LightGBM（lgb）介绍XGBoost在LightGBM提出之前，最有名的GBDT工具就是XGBoost了，它是基于预排序方法的决策树算法。这种构建决策树的算法基本思想是：1.对所有特征都按照特征的数值进行预排序。2.在遍历分割点的时候用O(#data)的代价找到一个特征上的最好分割点。3.在找到一个特征的最好分割点后，将数据分裂成左右子节点。这样的预排序算法的优点是能精确地找到分割点。但是缺点也很明显：首先，空间消耗大。这样的算法需要保存数据的特征值，还保存了特征排序的结果（例如，为了

2020-12-06 22:31:49 199

原创 2020-12-02

读取各种EmbeddingWord2Vec训练及gensim的使用Word2Vec主要思想是：一个词的上下文可以很好的表达出词的语义。通过无监督学习产生词向量的方式。word2vec中有两个非常经典的模型：skip-gram和cbow。skip-gram：已知中心词预测周围词。cbow：已知周围词预测中心词。在使用gensim训练word2vec的时候，有几个比较重要的参数size: 表示词向量的维度。window：决定了目标词会与多远距离的上下文产生关系。sg: 如果是0，则是CBOW模

2020-12-03 18:58:40 131

原创 2020-11-30

天池新闻推荐入门赛Task——多路召回所谓的“多路召回”策略，就是指采用不同的策略、特征或简单模型，分别召回一部分候选集，然后把候选集混合在一起供后续排序模型使用，可以明显的看出，“多路召回策略”是在“计算速度”和“召回率”之间进行权衡的结果。其中，各种简单策略保证候选集的快速召回，从不同角度设计的策略保证召回率接近理想的状态，不至于损伤排序效果。如下图是多路召回的一个示意图，在多路召回中，每个策略之间毫不相关，所以一般可以写并发多线程同时进行，这样可以更加高效。计算相似性矩阵这一部分主要是通过协同

2020-11-30 15:16:52 262

原创 2020-11-26

零基础入门推荐系统Task2——数据分析数据分析数据分析的价值主要在于熟悉了解整个数据集的基本情况包括每个文件里有哪些数据，具体的文件中的每个字段表示什么实际含义，以及数据集中特征之间的相关性，在推荐场景下主要就是分析用户本身的基本属性，文章基本属性，以及用户和文章交互的一些分布，这些都有利于后面的召回策略的选择，以及特征工程。当特征工程和模型调参已经很难继续上分了，可以回来在重新从新的角度去分析这些数据，或许可以找到上分的灵感。首先导入需要的包import pandas as pdimport

2020-11-27 16:53:45 121

原创 2020-11-24

零基础入门推荐系统Task1——赛题理解+Baseline赛题简介此次比赛是新闻推荐场景下的用户行为预测挑战赛，该赛题是以新闻APP中的新闻推荐为背景，目的是要求我们根据用户历史浏览点击新闻文章的数据信息预测用户未来的点击行为，即用户的最后一次点击的新闻文章，这道赛题的设计初衷是引导大家了解推荐系统中的一些业务背景，解决实际问题。数据简介此次比赛是新闻推荐场景下的用户行为预测挑战赛，该赛题是以新闻APP中的新闻推荐为背景，目的是要求我们根据用户历史浏览点击新闻文章的数据信息预测用户未来

2020-11-25 16:24:21 213

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人