学习总结
-
用Spark生成Item2vec和Graph Embedding。运用 Spark 实现经典的 Embedding 方法 Item2vec 和 Deep Walk(使用PySpark MLlib)。Item2vec是 Word2vec 在任意序列数据上的推广。Word2vec模型一般分为两种:Skip-gram 模型(中心词决定了它的相邻词),而CBOW相反(是相邻词决定当前的词)。
Word2vec的样本生成方法:通过滑动窗口,截取词组,把词组内的词转换成训练样本。 -
关于 Item2vec 的 Spark 实现,注意训练 Word2vec 模型的几个参数:
- VectorSize:设置 Embedding 向量的维度
- WindowSize:在序列数据上采样的滑动窗口大小
- NumIterations: 训练时的迭代次数
-
在 Deep Walk 的实现中,着重理解,生成物品间的转移概率矩阵的方法,以及通过随机游走生成训练样本过程。