2.5.1 基础算法
P67 负样本采样过程
程序实现
##正样本:用户喜欢的物品;
##负样本:用户不感兴趣的物品。
import random
items = {'a':1,'b':1,'c':1} # 用户已经有过行为的物品的集合,即用户喜欢的物品列表,即正样本
ret = dict() # 用来存储正样本和负样本,即用户喜欢的和不感兴趣的物品都将存储在这里
for i in items.keys():
ret.update({i:1}) # 将用户已经有过行为的物品,添加到ret字典中,并标注成正样本
items_pool = ['a','b','c','d','e','f','g','h','i']
n = 0 # 计数,计算已经找到的负样本的数目
for i in range(0,len(items)*3): # 当然,也有可能循环len(items)*3次后,找到的负样本还是不如正样本多,但这毕竟是小概率事件
item = items_pool[random.randint(1,len(items_pool) - 1)] # items_pool 是候选物品的列表,包括正样本和负样本。(注意!但不是所有物品,因为除了正样本后,不止有负样本,还有热门物品中,用户不感兴趣的物品)。 换言之,items_pool[]中不包括热门物品中,用户不感兴趣的物品
if item in ret.keys():
continue
ret.update({item:0})
n += 1
if n >= len(items):
break
for item,ret in ret.items():
print(item,'correspond to ',ret)
执行结果
a correspond to 1
b correspond to 1
c correspond to 1
f correspond to 0
i correspond to 0
d correspond to 0
该算法中涉及到的梯度下降法的学习:梯度下降法