![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
datamining
昵称诚诚
stay hungry, stay foolish
展开
-
数据挖掘标准 CRISP-DM 学习
CRISP-DM (cross-industry standard process for data mining), 即为"跨行业数据挖掘过程标准".此KDD(knowledge discovery in database,KDD, 数据库知识发现)过程模型于1999年欧盟机构联合起草. 通过近几年的发展,CRISP-DM 模型在各种KDD过程模型中占据领先位置,采用量达到近60%.(数转载 2015-03-09 10:11:10 · 3854 阅读 · 0 评论 -
ubuntu14.04 安装hadoop 2.6.0小结
本人是在windows8下用virtualbox 虚拟的ubuntu server14.04 hadoop 版本为 2.6.0,模式是伪分布模式。jdk版本为jdk 1.7.0_79安装过程中总是碰到教程上不会出现的问题,下面就总结下主要步骤,以及安装配置过程中遇到的问题。安装jdk,配置JAVA_HOME,最好直接配置在/etc/profile 或其他shell启动文件里,这样可以后面不用更改原创 2015-04-30 11:03:40 · 710 阅读 · 0 评论 -
余弦相似度
一、 概念与定义 余弦相似度,又称为余弦相似性。通过计算两个向量的夹角余弦值来评估他们的相似度余弦值的范围在[-1,1]之间,值越趋近于1,代表两个向量的方向越趋近于0,他们的方向更加一致。相应的相似度也越高二、 主要应用 最常见的应用就是计算文本相似度。将两个文本根据他们词,建立俩个向量,计算这两个向量的余弦值,就可以知道两个文本在统计学方法中他们的相似度情况。实践证明,这是一个非常有效的方法原创 2016-03-20 13:26:45 · 2038 阅读 · 0 评论