数据挖掘
gundanseed
学无止境
展开
-
KNN算法的个人理解
KNN算法被称为 lazy 算法,只有在判断未知类别的元素时才会建立模型进行计算。KNN算法可以分为以下三步:1 存储已知类别的元素。2 来了一个新的元素后,计算所有已知元素与它的欧式距离。可以采用加权欧氏距离来计算。3 取出与待分类元素最近的k个类型已知的元素,这个k个元素中大多数元素属于哪个类别,那么待分类元素就属于哪个类别。怎样存储?怎样使第二步的计算量最少?原创 2013-11-15 09:35:19 · 899 阅读 · 0 评论 -
pymining中的词频矩阵的生成过程
最近在看pymining开源项目,对其词频矩阵的生成过程有些模糊,现在过一遍。首先,pymining中所定义词频矩阵是一个什么样的矩阵?它是一个行 为 文章编号,列为单词的矩阵,而矩阵中的元素是该列单词在该行文章中出现的次数。例如:文章1: 小明爱上学。小明爱吃青菜 。 文章2:小明今天去上学了,小明讨厌吃萝卜生成的词频矩阵可以是: 小明上学青菜原创 2013-11-16 18:06:18 · 2883 阅读 · 0 评论 -
kmeans算法的个人理解
1 kmeans算法是一种什么样的算法?答:kmeans算法是一种聚类算法,在使用kmeans算法时并不需要事先构建模型(如决策树判断需事先构建决策树,knn判断需事先构建kd树等),而是直接进行聚类。 它的基本过程是:1. 对于N个n维空间的待分类点,选出K个点作为初始质心(初始中心点)2. 对于空间中的N-K个剩余点,若它离初始质心X的(欧几里得距离/余弦相似度)最原创 2013-11-17 19:31:10 · 1823 阅读 · 0 评论 -
数据挖掘,数据分析好书
深入浅出数据分析 (豆瓣) 这书挺简单的,基本的内容都涉及了,说得也比较清楚,最后谈到了R是大加分。难易程度:非常易。啤酒与尿布 (豆瓣) 通过案例来说事情,而且是最经典的例子。难易程度:非常易。数据之美 (豆瓣) 一本介绍性的书籍,每章都解决一个具体的问题,甚至还有代码,对理解数据分析的应用领域和做法非常有帮助。难易程度:易。集体智慧编程 (豆瓣) 学习数据分析、数据挖掘、机器学习人转载 2013-12-07 07:23:19 · 1212 阅读 · 0 评论