Learning to Rank

最新推荐文章于 2022-11-17 10:45:00 发布

liu_sn

最新推荐文章于 2022-11-17 10:45:00 发布

阅读量355

点赞数

分类专栏： learning-to-rank 数据分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/liu_sn/article/details/79633986

版权

数据分析同时被 2 个专栏收录

8 篇文章 0 订阅

订阅专栏

learning-to-rank

1 篇文章 1 订阅

订阅专栏

最近因为工作需要，涉及到了Learning to Rank的问题，这里会记录我学习中的每一个有意义的步骤。

抽象问题

想要解决一个日常生活中的问题，最关键的往往不是使用具体哪一种方法，用什么框架，而是如何把问题抽象出来？并且如何设计训练集？

那网页排名来举例，这个问题传统上是利用人为构造得分函数来实现的，比如BM25等；但近年来这一问题已经被转变为一种监督式的机器学习。

训练集
训练集可以表示为 ${(x q j, l q j)}$ $\{(\mathbf x_j^q, l_j^q)\}$
其中： $q\in(0, n)$ 表示querys的数量； $j\in(1, m_q)$ 表示该条query所含有的文件数； $\mathbf x_j^q\in \mathbb R^d$ 表示query q 和第j个文档所对应的d维向量，而 $l_j^q$ 表示 $\mathbf x_j^q$ 的相关系数。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

liu_sn CSDN认证博客专家 CSDN认证企业博客

码龄8年

12: 原创

42万+: 周排名

51万+: 总排名

2万+: 访问

: 等级

414: 积分

9: 粉丝

9: 获赞

3: 评论

32: 收藏

私信

关注

热门文章

分类专栏

最新评论

平均分布
weixin_39204525: 有必要拆第二个信封，2A*0.5+0.5A*0.5=1.25A 要比现在手里的A大
为什么样本方差除以的是(n-1)而不是n呢？！
寒泉Hq: 楼主写的真好，学习了
如何进行数据分析（以kaggle新手赛为例）－1：
q03581853: [code=python] or dataset in combine: for i in range(0, 2): for j in range(0, 3): guess_df = dataset[(dataset['Sex'] == i) & \ (dataset['Pclass'] == j + 1)]['Age'].dropna() #dropna()用来删除缺失数据 # if(i==1)&(j==1): # print guess_df # age_mean = guess_df.mean() ＃平均值 # age_std = guess_df.std()#标准差 # age_guess = rnd.uniform(age_mean - age_std, age_mean + age_std) #给出随机数的最小值和最大值，随机生成中间值 age_guess = guess_df.median() #中位数 # Convert random age float to nearest .5 age guess_ages[i, j] = int(age_guess / 0.5 + 0.5) * 0.5 for i in range(0, 2): for j in range(0, 3): dataset.loc[(dataset.Age.isnull()) & (dataset.Sex == i) & (dataset.Pclass == j + 1), \ 'Age'] = guess_ages[i, j] [/code] 感谢你的分享，请问一下这一部分代码是做什么的？

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。