数据挖掘
从未完美过
这个作者很懒,什么都没留下…
展开
-
曼哈顿距离,欧式距离,余弦距离
1.曼哈顿距离曼哈顿距离又称马氏距离(Manhattan distance),还见到过更加形象的,叫出租车距离的。具见上图黄线,应该就能明白。计算距离最简单的方法是曼哈顿距离。假设,先考虑二维情况,只有两个乐队 x 和 y,用户A的评价为(x1,y1),用户B的评价为(x2,y2),那么,它们之间的曼哈顿距离为 2.欧式距离欧式距离又称欧几里得距离或欧几里得度量(Euclidean Metric)...转载 2018-06-05 16:17:40 · 2494 阅读 · 0 评论 -
欧式距离、标准化欧式距离、马氏距离、余弦距离
目录欧氏距离标准化欧氏距离马氏距离夹角余弦距离汉明距离曼哈顿(Manhattan)距离1.欧式距离欧式距离源自N维欧氏空间中两点x1,x2x1,x2间的距离公式: d=∑i=1N(x1i−x2i)2−−−−−−−−−−−−⎷d=∑i=1N(x1i−x2i)22.标准化欧式距离引入标准化欧式距离的原因是一个数据xixi的各个维度之间的尺度不一样。 【对于尺度无关的解释】如果向量中第一维元素的数...转载 2018-06-05 16:49:28 · 10413 阅读 · 0 评论 -
SPSS 24 64位安装
SPSS为IBM公司推出的一系列用于统计学分析运算、数据挖掘、预测分析和决策支持任务的软件产品及相关服务的总称,有Windows和Mac OS X等版本。下面是安装的具体步骤。第1步:下载安装包链接:https://pan.baidu.com/s/1dHdEVh3 密码:6yl0解压后打开.exe文件进行安装。第2步:准备安装程序第3步:点击下一步第4步:选择“我接受许可协...转载 2019-02-16 15:32:48 · 8258 阅读 · 10 评论 -
机器学习:生动理解TF-IDF算法
什么是TF-IDF?TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术,常用于挖掘文章中的关键词,而且算法简单高效,常被工业用于最开始的文本数据清洗。TF-IDF有两层意思,一层是"词频"(Term Frequency,缩写为TF),另一层是"逆文档频率"(Inverse Document Frequ...转载 2019-07-02 17:55:15 · 693 阅读 · 0 评论 -
产品需求分析神器:KANO模型分析法
任何一个互联网产品,哪怕是一个简单的页面,也会涉及到很多的需求,产品经理也会经常遇到这样的情况:老板,业务提的各种新需求一下子都扎堆,哪个需求对用户来说最重要,用户对我们的新功能是否满意?开发产品资源有限,开发、设计、测试人手总是不够用,这么多需求没办法都做,先做哪些需求? 这些都不应该是PM拍脑袋想出来的,其实产品经理的基本要求就是在有限的资源上,通过优化产品设计,提炼出正确、有效...转载 2019-06-28 16:56:45 · 6524 阅读 · 0 评论 -
【量化课堂】一只兔子帮你理解 kNN
导语:商业哲学家 Jim Rohn 说过一句话,“你,就是你最常接触的五个人的平均。”那么,在分析一个人时,我们不妨观察和他最亲密的几个人。同理的,在判定一个未知事物时,可以观察离它最近的几个样本,这就是 kNN(k最近邻)的方法。作者:肖睿编辑:宏观经济算命师本文由JoinQuant量化课堂推出,本文的难度属于进阶(上),深度为 level-1简介kNN(k-Ne...转载 2019-07-11 17:02:17 · 308 阅读 · 0 评论 -
【量化课堂】kd 树算法之思路篇
导语:kd 树是一种二叉树数据结构,可以用来进行高效的 kNN 计算。kd 树算法偏于复杂,本篇将先介绍以二叉树的形式来记录和索引空间的思路,以便读者更轻松地理解 kd 树。作者:肖睿编辑:宏观经济算命师本文由JoinQuant量化课堂退出,本文的难度属于进阶(上),深度为level-1。阅读本文之前请掌握kNN(level-1)的知识。前言kd 树(k-dimensi...转载 2019-07-11 17:03:33 · 587 阅读 · 0 评论 -
各种距离算法汇总
1. 欧氏距离,最常见的两点之间或多点之间的距离表示法,又称之为欧几里得度量,它定义于欧几里得空间中,如点 x = (x1,...,xn) 和 y = (y1,...,yn) 之间的距离为:(1)二维平面上两点a(x1,y1)与b(x2,y2)间的欧氏距离:(2)三维空间两点a(x1,y1,z1)与b(x2,y2,z2)间的欧氏距离:(3...转载 2019-08-02 11:25:13 · 3252 阅读 · 1 评论 -
常见的六大聚类算法
1. K-Means(K均值)聚类算法步骤:(1) 首先我们选择一些类/组,并随机初始化它们各自的中心点。中心点是与每个数据点向量长度相同的位置。这需要我们提前预知类的数量(即中心点的数量)。(2) 计算每个数据点到中心点的距离,数据点距离哪个中心点最近就划分到哪一类中。(3) 计算每一类中中心点作为新的中心点。(4) 重复以上步骤,直到每一类中心在每次迭代后变化不大为止。也可以多次...转载 2019-09-24 15:29:03 · 179635 阅读 · 6 评论