协同过滤,ARIMA,聚类

基于用户的协同过滤算法
基于用户协同过滤通过用户对不同内容的行为,来评测用户相似性,找到“邻居”基于用户这种相似性做出推荐
这种推荐本质是给相似的用户推荐其他用户喜欢的内容
即我们常看到的:和你类似的人还喜欢如下内容

协同过滤算法分为两步:
找到和目标用户兴趣相似的用户集合
找到这个集合中用户所喜欢的,并且目标用户没有听说过的物品推荐给目标用户

欧几里得距离评价
皮尔逊相关度评价
余弦相关系数
杰卡德相关系数

整体流程
开始->读入用户评分->计算目标用户的相似用户->根据相似性排序选择前K个相似用户->根据相似用户物品评分,预测目标用户评分->过滤掉目标用户浏览或购买过的物品->选择预测评分最高的前N个项目作为推荐列表->结束

局限性
首先每次计算用户间相似度时,需要遍历每个用户和所有用户评分,这样在网站用户增长到一定程度后,计算用户间的相似度过程将变得越发困难
同时,基于用户的协同过滤算法,并不是那么容易从数学原理去解释
用户口味变化也很快,不是静态的,所以兴趣迁移问题很难反应出来
数据稀疏,用户与用户间有共同消费行为实际是比较少的,而且一般都是热门物品,对发现用户兴趣帮助也不大

时间序列分析
确定性时序分析目的:克服其他因素,单纯测度出一个确定性因素对序列影响;推断出各种确定性因素之间相互作用关系及它们对序列的综合影响
时间序列趋势分析目的:有些时间序列有非常明显的趋势,分析目的是找出序列中这种趋势,并利用这种趋势对序列发展做出合理预测
常用方法:趋势拟合法和平滑法

ARIMA和ARMA的区别在于ARIMA进行了差分;
差分后的ARIMA会变为ARMA模型

聚类和分类的区别在于:聚类所要求划分的类是未知的;聚类是搜索簇的无监督学习过程,与分类不同,无监督学习不依赖预先定义的类或带类标记的训练实例

聚类分析提供由个别数据对象到数据对象所指派簇的抽象
数据降维
数据离散压缩
有效发现最近邻

层次聚类
层次聚类指递归地对对象进行合并和分裂,直到满足某一终止条件为止的一类聚类算法
层次聚类分为两类
– 凝聚方法(自底向上):一开始将每个对象作为单独的一组,然后根据同类相近,异类相异原则,合并对象,直到所有组合并成一个,或达到一个终止条件为止
– 分裂方法(自顶向下):一开始将所有对象置于一类,在迭代每一步中,一个类不断地分为更小的类,直到每个对象在单独一个类中,或达到一个终止条件

熵:所有信息量的期望,诠释了概率越小,信息量越大的含义。
如果p(xi)表示事件的概率,那么该信息量大小表示为-log(p(xi)),则该事件所蕴含信息的所有可能性的熵为该事件各个可能性的信息期望p(xi)*[-log(p(xi))]的汇总

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值