首页HF粗排模型优化

[work@ rus_env]$ pwd
/home/work/xx/du-rus/offline-tools/du_rus/rus_env

[work@ rus_env]$

python buildenv_rus.py  5a0e771e938a486df3b8b3e1cde1a39c2006882d 5f3241963a3e39a8e1eae05d7075fc5b9278a7c7

打开日志级别

[work@xx conf]$

vim /home/work/xx/du-rus/du_rus_offline/conf/log.conf

第31行rpc.log 追加,TRACE,DEBUG

     31 RPC_SELFLEVEL : NOTICE,TRACE,DEBUG

重启服务

/home/work/xx/du-rus/du_rus_offline/bin

./server_control stop  暂停服务

./server_control start  启动服务

小流量

模型预测:506987_507013

recaller分布不变:507017_507013

source_type分布不变:506985_507013

recaller_source_type分布不变:507016_507013

对照组:507013

模块验证

前置规则(pre_process)

  1. debug信息
    postman连接测试环境,请求体中isDebug设置为true,在response中搜索homefeed_items_feature

[work@nj02-ps-wwwda13-n1.nj02.baidu.com log]$ vim /home/work/xx/du-rus/du_rus_offline/log/rpc.log

日志查询  

模型预测

 1. 无法排序资源跳过模型预测
小流量输入506987_507013
postman连接测试环境,日志中搜索"before extract_specific_sourcetype_cands cands len is" → A   日志结果为579

  

2. 日志中搜索"after extract_specific_sourcetype_cands cands len is" → B  日志结果为537

3. 日志中搜索"target_cands len is" → C
必须保证A-B=C

  


且资源的source_type为vod和news是会跳过预测,即这两种情况下日志中会出现"this item has been move to target_cands"

​4. 模型预测
小流量输入506987_507013
日志中
不会出现"model_manager->regress fail"
日志中搜索"candidate_id:"查看每个candidate的打分


排序

1. 基于模型预测/recaller分布不变的结果排序(单纯按照分数排序)小流量输入模型预测对应小流量506987_507013,查看排序前candidates

日志搜索"pre rough_ranking is"分数无序​

日志搜索"post rough_ranking is",分数一定是降序排序

2. 基于recaller_source_type分布不变507017_507013的结果排序(同recaller+source_type下的资源进行排序)

流量输入模型预测对应小流量,查看排序前candidates,日志搜索"pre rough_ranking is",同上
分数无序

日志搜索"post rough_ranking is",对应排序前和排序后资源的排序方式是同recaller+source_type下的排序
分数降序

3. 基于source_type分布不变506985_507013的结果排序(根据recaller_min_quota_conf读取每个recaller quota,保证quota内资源排序前后source_type分布不变)

小流量输入模型预测对应小流量,日志中搜索"cands len is",即输入排序模块的Candidate个数

日志中搜索"global_source_type_distribution is",查看排序前topk资源的分布

日志中搜索"top_reserve_num_candidates len is",查看排序后资源数量总和,一定保证总和和上面topk资源数量总和相同

4. 日志中搜索"check_source_type_distribution is",查看排序后topk资源的source_type分布,一定保证和排序前topk资源的分布是相同的
 

quota

1. 基于模型预测/source_type分布不变的quota配置
小流量输入模型预测对应小流量506987_507013,日志中搜索不到"in select_topk"

2. 基于recaller分布不变/recaller_source_type分布不变的quota配置   
小流量输入模型预测对应小流量,日志中搜索到"in select_topk"

测试结论

通过

  • 16
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

东方狱兔

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值