dylan-CSDN博客

原创【Task04】新闻推荐打卡学习—召回排序

【Task04】新闻推荐打卡学习—召回排序先码后学！通过召回的操作，我们已经进行了问题规模的缩减，对于每个用户，选择出了N篇文章作为了候选集，并基于召回的候选集构建了与用户历史相关的特征，以及用户本身的属性特征，文章本省的属性特征，以及用户与文章之间的特征，下面就是使用机器学习模型来对构造好的特征进行学习，然后对测试集进行预测，得到测试集中的每个候选集用户点击的概率，返回点击概率最大的topk个文章，作为最终的结果。排序阶段选择了三个比较有代表性的排序模型，它们分别是：LGB的排序模型LGB

2020-12-06 20:54:06 354

原创【Task04】组队学习新闻推荐—特征工程

特征工程(制作特征和标签，转成监督学习问题)（最近考试太多，先码考完再扩充一下）我们先捋一下基于原始的给定数据，有哪些特征可以直接利用：文章的自身特征， category_id表示这文章的类型， created_at_ts表示文章建立的时间，这个关系着文章的时效性， words_count是文章的字数，一般字数太长我们不太喜欢点击, 也不排除有人就喜欢读长文。文章的内容embedding特征，这个召回的时候用过，这里可以选择使用，也可以选择不用，也可以尝试其他类型的embedding

2020-12-03 18:29:28 170

原创【Task05】Numpy组队学习—大作业

载入数据数据：（150*4）第一题第二题第三题第四题第五题第六题第七题第八题第九题第十题十一题十二题十三题十四题十五题十六题十七题十八题

2020-12-01 22:34:47 176

原创【Task03】组队学习新闻推荐系统—多路召回

【Task03】组队学习新闻推荐系统—多路召回今天的代码比较难，时间比较紧，先码后面结合录播再看看细节，只跑通了一部分，部分注释在代码中。import pandas as pdimport numpy as npfrom tqdm import tqdmfrom collections import defaultdictimport os, math, warnings, math, picklefrom tqdm import tqdmimport faissimport collec

2020-11-30 15:55:43 227

原创【Task04】Numpy组队学习:线性代数

【Task04】Numpy组队学习:线性代数本文目录【Task04】Numpy组队学习:线性代数矩阵和向量积 :dot()矩阵特征值与特征向量：eig()和eigvals()矩阵分解奇异值分解:svd()QR分解:qr()Cholesky分解范数和其它数字矩阵的范数 :norm()方阵的行列式 : det()矩阵的秩:matrix_rank()矩阵的迹:trace()解方程和逆矩阵逆矩阵（inverse matrix） inv()求解线性方程组 solve()Numpy中涉及矩阵运算可用ndarray和

2020-11-29 21:29:12 197

原创【Task02】组队学习新闻推荐—数据分析

【Task02】组队学习新闻推荐—数据分析本次数据分析的过程1. 数据预处理：分别把训练集，测试集数据按时间戳排序并统计用户点击文章的次数。用到groupy()rank()transport()函数rank()与sorted()区别rank():返回原序列元素对应位置的序列sorted():只是进行排序2. 数据浏览：训练集测试集表格：浏览数据文件的每个字段的含义和head() 大致对数据有个整体印象用到的函数：merge(df,how(连接方式),on(在哪个字段进行链接))(

2020-11-27 21:51:04 200

原创【Task03】Numpy组队学习—统计相关

【Task03】Numpy组队学习—统计相关本文目录【Task03】Numpy组队学习—统计相关次序统计计算最小值: amin()计算最大值: amax()计算极差：ptp()计算分位数：percentile均值与方差计算中位数：median（）计算平均数 mean()加权平均值：average()计算方差：var()计算标准差:std()相关计算协方差矩阵：cov()计算相关系数：corrcoef()直方图：digitize()课后习题次序统计计算最小值: amin()numpy.amin(a[

2020-11-26 16:26:30 210