![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
数据科学-算法
文章平均质量分 60
数据科学-算法部分
宁滴爹地
这个作者很懒,什么都没留下…
展开
-
推荐系统:基于内容Content-based,协同过滤Collaborative Filtering
Content-based recommending system算法思想:在我们已经有了用户一部分数据的前提下,推荐与用户之前喜欢的产品的类似产品。对每个商品设置一个 item profile。对每个用户也初始化一个user profile。首先我们需要对于用户数据进行规一化(Normalize)以保证归一化后的数据取值在 [0,1] 范围中。举个例子,对于有A演员参演的两部电影,某一用户打分3分和5分,对于有B演员参演的另外三部电影,该用户打分1分,2分和4分,此时会发现B演员参演的电影波动很大,原创 2021-01-10 10:16:29 · 1210 阅读 · 0 评论 -
距离与相似度:欧氏距离,Jaccard距离, 余弦距离,编辑距离
Jaccard距离余弦距离原创 2021-01-09 13:05:25 · 861 阅读 · 0 评论 -
数据聚类: 层次聚类 hierarchical clustering,K-means, BFR, Cure algorithm, DBSCAN
K-means聚类BFRThe cure algorithm原创 2021-01-08 16:01:56 · 1057 阅读 · 0 评论 -
寻找相似集 similar sets
ShinglingJaccard Similarity and ShinglingMinhashing最小哈希签名Locality-Sensitive Hashing局部敏感哈希算法原创 2021-01-08 16:41:02 · 399 阅读 · 0 评论 -
频繁项集与关联规则Frequent Itemset Mining and Association Rules、A-Priori算法 , PCY算法
目标:寻找大量客户通常共同购买的项目方法:使用收集的销售数据寻找频繁项集频繁项集 Frequent Itemset一个经典规则:如果有人买尿布和牛奶,那么他/她很可能买啤酒!购物篮模型:描述两类对象的多对多关系。项:商场中的不同商品购物篮:每个顾客购买的商品总和支持度support:指包含项集I的购物篮个数通常我们会设置一个阈值S(support threshold)。如果项集I的支持度(I的子集)≥ S,那么I是频繁项集。关联规则 Association Rules可信度 con原创 2020-12-23 17:39:09 · 2993 阅读 · 3 评论 -
预测问题的评价指标 MSE, RMSE, MAE, MAPE
一、理清基本概念算数平均值(期望)方差与标准差MSE均方误差|------------|–方差–|标准差|| -均方差-|可类比|---------||均方根差|---------|可类比|总的来说,方差是数据序列与均值的关系,而均方误差是数据序列与真实值之间的关系。MAE(平均绝对误差)MAPE(平均绝对相对误差)平均绝对百分比误差(Mean Absolute Percentage Error)[Math Processing Error]范围[0,+∞)原创 2020-08-22 17:10:12 · 8668 阅读 · 1 评论