test_item预测的item由id变成它对应的分词结果,代表的是预测的商品是怎么样的一个商品 (test_IdToItem.java)IdToItem.txt
ToTerms.txt将dim_fashion_matchsets中各搭配的item由id变为dim_items.txt中的对应的分词
上面两者做相似度匹配,记录行号,将推荐搭配的行号,按相似度由高到低推荐给它,推荐结果line.txt.(CommonCount.java)可能出现问题Too many file open,截取后面一段的文件重新操作就可以了
最后回到matchsets,将与预测商品同类的商品剔除,保留其搭配的商品,其中预测的是否为同类商品,是根据他们的类别cat是否相同来判断的(未剔除)
比如line.txt第一个数为5735,即matchsets中第5735的推荐搭配最适合,找到dim_fashion_matchsets第5735行的数据 :
912534,932752,658698,519908,70341,3050430,300564,1071257,1590463,2240550,84524,3204531,3267304,3185197,1273818,1334655
而并不是这一行所有商品我们都需要,我们去ToCats.txt 中找到,第一个预测商品的对应的类别cat,第一行对应399,同时,去ToCat.txt中找到第5735行,对应matchsets中第5735行的所有商品的类别:487 487 487 487 399 399 399 399 220 220 220 220 317 317 317 317,相比对,我们需要剔除掉类别为399的商品