3月2日:
今天分别尝试lda模型和ifidf做训练,发现tfidf效果甚至不如tfidf , 直观性不好。需要大量的时间进行调优估计才可以比较不错。
另外了解协同过滤方法, 其中spark提供了ALS方法,用矩阵分解的方式来进行评估。 不明白其原理, 以及
http://muricoca.github.io/crab/ python 的库 是怎么实现的cf算法。https://github.com/ocelma/python-recsys 的推荐算法
明天需要去学习广告预估的方式, 用户画像的方式来进行推荐。
3月3日:
进行了全量的计算, 选择iftdf方式计算相似度,并存储其他属性供后面用。 以后可以细节上优化,公司分公司共用特性,减少一些计算数据
看了lfm的相关内容,对于单个用户训练模型。 怎么体现cf 。还不明白 http://blog.csdn.net/afeionepiece/article/details/47675685。
LFM 隐factor模型系列 ALS SVD LSA
补充,针对本日的疑惑,后续做调研, ALS属于 隐主题模型的一种解法, 用交叉最小二乘法来分解矩阵。 而NG公开课用随机梯度下降法来进行求解矩阵:
一下摘自推荐系统栏目的博客:
隐含语义分析技术从诞生到今天产生了很多著名的模型和方法,其中和该技术相关且耳熟能详的名词有pLSA、LDA、隐含类别模型(latent class model)、隐含主题模型(latent topic model)、矩阵分解(matrix factorization)。这些技术和方法在本质上是相通的,其中很多方法都可以用于个性化推荐系统。本章将以LFM为例介绍隐含语义分析技术在推荐系统中的应用。
LFM latent factor model:http://blog.csdn.net/harryhuang1990/article/details/9924377 具体参看这一个博客
其中spark提供了ALS方法进行矩阵分解,交叉最小二乘法, 而NG的公开课直接用随机梯度下降法进行求解。最小二乘法的方法大家可以去自行百科。这里放一个链接给代价看http://blog.csdn.net/oucpowerman/article/details/49847979
3月3日:
进行了全量的计算, 选择iftdf方式计算相似度,并存储其他属性供后面用。 以后可以细节上优化,公司分公司共用特性,减少一些计算数据
看了lfm的相关内容,对于单个用户训练模型。 怎么体现cf 。还不明白 http://blog.csdn.net/afeionepiece/article/details/47675685。
LFM 隐factor模型系列 ALS SVD LSA