感觉很奇怪,系统过滤到底是应该把它理解成一个“线性回归”的问题还是一个“逻辑回归”(或者softmax)的问题?
按照吴恩达在Coursera上的课程介绍来说,显然是一个“线性回归”问题,因为在定义cost function时,我们采用的是二分之一平方差(顺便说下这里是latent factor model)
所以,当我重新审视这个问题时,我就开始思考,协同过滤的cost function是该取平方差(类似于线性回归)还是该取log(类似于逻辑回归)
我这样想的原因是,如果一个人非常喜欢一类的电影,非常非常喜欢,则表示“喜欢动作电影”的latent factor会非常大,这时我感觉用linear regression不好。。
顺便提一个推荐的思路,对于兴趣爱好并不广泛的人,比如我,其实老是看一类的东西会很烦的,所以能推荐一些新奇的,我没看过的东西我可能会很感兴趣,但这和协同过滤的思想显然是相悖的。我暂时还不太清楚这个问题的解决方方式。。。