比赛连接 https://www.kesci.com/home/competition/5cc51043f71088002c5b8840
正式赛题——文本点击率预估(5月26日开赛)
搜索中一个重要的任务是根据query和title预测query下doc点击率,本次大赛参赛队伍需要根据脱敏后的数据预测指定doc的点击率,结果按照指定的评价指标使用在线评测数据进行评测和排名,得分最优者获胜。
直接上代码了(部分代码参考了讨论区的分享)
# 数据集处理,转化成fasttext需要的格式
import csv
with open('/home/kesci/work/labeled_content', 'w') as f:
with open('/home/kesci/input/bytedance/first-round/train.csv') as csv_file:
csv_reader = csv.reader(csv_file, delimiter=',')
for row in csv_reader:
query = row[1]
title = row[3