- 论文数据来源:雅虎
- 数据量:300 million iOS users from one day in February 2015。 三亿用户一天APP的使用情况~~
- 生成APP vector之间评估相似的方法: 余弦相似度。
- 准确性评估标准: 人工审查。定义了strong relevant、relevant、not relevant三个级别。
- 比较方法:
- BoW(Bag-of-words):根据APP的描述信息、标签、名字等,TF-IDF提取关键词。计算关键词之间的余弦相似度。
- BoWCategory:APP应用商店里,在一个类目下的APP更相似。基于此假设,选取APP所属类目下,top n 相似的APP作为相似APP。
- MFBinary: 矩阵分解,其中初始矩阵中是由0-1填充,表示用户是都使用该app。低秩矩阵user-app。
- MFIntensity: 矩阵由APP的使用频次填充(某app使用次数/所有APP的使用次数)。
- word2vecOnApp: APP的使用序列作为sentence,每个APP是一个word,直接训练。
- app2vec:用户的APP使用序列预处理(加入时间间隔、去冗余),权重根据时间间隔距离越大而越小。