![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据分析/数据挖掘/机器学习
文章平均质量分 94
_HAIL_
Contented with little,yet wishing for more.
展开
-
【大数据杀熟】----知乎----词频分析
【大数据杀熟】一词近来相当火热,大哥邀我和他一起利用假期做了这个项目,我负责知乎上有关【大数据杀熟】全量信息的抓取,以及绘制词云,记录一下我遇到的问题以及一些学习心得。 我们的推文,欢迎关注【带吧网络】公众号哟~~关于爬虫 简单点,爬虫的方式简单点 知乎登录的问题。 我在抓取知乎上的信息时发现必须保持登录状态才可以获得信息,但是模拟登录知乎重写代码有点麻烦,大哥...原创 2018-04-09 16:30:23 · 2899 阅读 · 1 评论 -
推荐系统之协同过滤概述
转载学习,谢谢博主分享!http://www.vanjor.org/blog/2011/05/rs-collaborative-filtering/协同过滤(Collaborative Filtering)是现今推荐系统中应用最为成熟的一个推荐算法系类,它利用兴趣相投、拥有共同经验之群体的喜好来推荐使用者感兴趣的资讯,个人透过合作的机制给予资讯相当程度的回应(如评分)并记录下来以达到过滤的目的进而...转载 2018-05-03 09:39:03 · 718 阅读 · 0 评论 -
相似度算法
转自:http://blog.sina.com.cn/s/blog_62b83291010127bf.html在数据分析和数据挖掘的过程中,我们经常需要知道个体间差异的大小,进而评价个体的相似性和类别。最常见的是数据分析中的相关分析,数据挖掘中的分类和聚类算法,如K最近邻(KNN)和K均值(K-Means)。当然衡量个体差异的方法有很多,最近查阅了相关的资料,这里整理罗列下。 为了方便下面的解释...转载 2018-05-05 22:29:30 · 1178 阅读 · 1 评论 -
几种相似度计算代码
from math import sqrt"""余弦相似度"""def sim_distance_cos(p1,p2): c = set(p1.keys())&set(p2.keys()) if not c: return 0 ss = sum([p1.get(sk)*p2.get(sk) for sk in c]) sq1 = sq...转载 2019-05-14 07:51:46 · 4348 阅读 · 0 评论