数据挖掘算法
用心倾听
程序狂 爱逗你玩
展开
-
KNN算法
一、算法概述1、kNN算法又称为k近邻分类(k-nearest neighbor classification)算法。最简单平凡的分类器也许是那种死记硬背式的分类器,记住所有的训练数据,对于新的数据则直接和训练数据匹配,如果存在相同属性的训练数据,则直接用它的分类来作为新数据的分类。这种方式有一个明显的缺点,那就是很可能无法找到完全匹配的训练记录。kNN算法则是从训练集中找到和转载 2016-03-20 16:05:39 · 1028 阅读 · 0 评论 -
KDDCUP历年主题
KDD Cup简介KDD Cup is the annual Data Mining and Knowledge Discovery competition organized by ACM Special Interest Group on Knowledge Discovery and Data Mining, the leading professional organiza转载 2016-04-24 11:06:44 · 5896 阅读 · 0 评论 -
搜狗用户查询日志(SogouQ)数据
http://www.sogou.com/labs/dl/q.html名称:用户查询日志(SogouQ)版本:2008介绍:搜索引擎查询日志库设计为包括约1个月(2008年6月)Sogou搜索引擎部分网页查询需求及用户点击情况的网页查询日志数据集合。为进行中文搜索引擎用户行为分析的研究者提供基准研究语料。转载 2016-04-24 11:16:10 · 8934 阅读 · 2 评论 -
数据挖掘数据集下载资源
1、气候监测数据集 http://cdiac.ornl.gov/ftp/ndp026b2、几个实用的测试数据集下载的网站http://www.fs.fed.us/fire/fuelman/http://www.cs.toronto.edu/~roweis/data.htmlhttp://www.cs.toronto.edu/~roweis/data.htmlhttp转载 2016-04-24 11:11:33 · 6221 阅读 · 1 评论 -
机器学习过度拟合问题一些原因
这几天在训练一个文本处理的机器学习算法,使用支持向量机和决策树算法在训练集上的数据的准确度特别高,但是在测试集上的数据的准确度确很低,于是陷入过度拟合的烦恼中,查找资料发现一些多度拟合的看法。仔细想想确实在训练时存在一些问题,第一:输入变量多,由于缺乏对问题的根本认识,使用了很多无关变量,这个问题打算从其它途径先认识变量和问题的关系;第二:数据的噪声可能是比较大,没有考虑到关键的特征和信息。下面的转载 2016-05-06 20:45:12 · 4561 阅读 · 0 评论 -
用于数据挖掘的分类算法有哪些,各有何优劣?
尝试将quora上的这个回答翻译了下。第一次翻译,不好之处请见谅。以下是我这些年总结的指南训练集有多大?如果你的训练集很小,高偏差/低方差的分类器(如朴素贝叶斯)比低偏差/高方差的分类器(如K近邻或Logistic回归)更有优势,因为后者容易过拟合。但是随着训练集的增大,高偏差的分类器并不能训练出非常准确的模型,所以低偏差/高方差的分类器会胜出(它们有更小的渐近误差)。转载 2016-05-06 20:09:42 · 1701 阅读 · 0 评论 -
支持向量机中所谓的支持向量究竟是什么?
1、支撑向量本质是向量,而这些向量却起着很重要的作用,如果做分类,他们就是离分界线最近的向量。也就是说分界面是靠这些向量确定的,他们支撑着分类面。名字就是这么来的...(就是离最优分类平面最近的离散点,也可以称为向量)2. 既然有很多的核函数,针对具体问题该怎么选择? 如果使用核函数向高维空间映射后,问题仍然是线性不可分的,那怎么办?第一个问题现在就可以回答你:对核函数的选择,现在转载 2016-05-06 19:11:42 · 7212 阅读 · 0 评论 -
序列模式挖掘
所谓序列模式,我的定义是:在一组有序的数据列组成的数据集中,经常出现的那些序列组合构成的模式。跟我们所熟知的关联规则挖掘不一样,序列模式挖掘的对象以及结果都是有序的,即数据集中的每个序列的条目在时间或空间上是有序排列的,输出的结果也是有序的。举个简单的例子来说明,关联规则一个经典的应用是计算超市购物中被共同购买的商品,它把每个顾客的一次交易视作一个transaction,计算在不同transa转载 2016-05-04 22:34:39 · 8078 阅读 · 0 评论 -
FP-Tree算法的实现
FP-Tree算法的实现在关联规则挖掘领域最经典的算法法是Apriori,其致命的缺点是需要多次扫描事务数据库。于是人们提出了各种裁剪(prune)数据集的方法以减少I/O开支,韩嘉炜老师的FP-Tree算法就是其中非常高效的一种。支持度和置信度严格地说Apriori和FP-Tree都是寻找频繁项集的算法,频繁项集就是所谓的“支持度”比较高的项集,下面解释一下支持度和置信度的概转载 2016-05-03 22:19:42 · 1821 阅读 · 0 评论 -
机器学习中的相似性度量
在做分类时常常需要估算不同样本之间的相似性度量(Similarity Measurement),这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究,甚至关系到分类的正确与否。 本文的目的就是对常用的相似性度量作一个总结。本文目录:1. 欧氏距离2. 曼哈顿距离3. 切比雪夫距离4. 闵可夫斯基距离5. 标准化欧氏距转载 2016-04-28 17:37:50 · 309 阅读 · 0 评论 -
深度学习数据集
海量数据(又称大数据)已经成为各大互联网企业面临的最大问题,如何处理海量数据,提供更好的解决方案,是目前相当热门的一个话题。类似MapReduce、 Hadoop等架构的普遍推广,大家都在构建自己的大数据处理,大数据分析平台。相应之下,目前对于海量数据处理人才的需求也在不断增多,此类人才可谓炙手可热!越来越多的开发者把目光转移到海量数据的处理上。但是不是所有人都能真正接触到,或者有机会去处理海转载 2016-04-28 14:32:35 · 2542 阅读 · 0 评论 -
TF-IDF与余弦相似性的应用(二):找出相似文章
今天,我们再来研究另一个相关的问题。有些时候,除了找到关键词,我们还希望找到与原文章相似的其他文章。比如,"Google新闻"在主新闻下方,还提供多条相似的新闻。为了找出相似的文章,需要用到"余弦相似性"(cosine similiarity)。下面,我举一个例子来说明,什么是"余弦相似性"。为了简单起见,我们先从句子着手。 句子A:我喜欢看电视,不喜欢看电影转载 2016-03-20 22:07:11 · 642 阅读 · 0 评论 -
TF-IDF与余弦相似性的应用(三):自动摘要
有时候,很简单的数学方法,就可以完成很复杂的任务。这个系列的前两部分就是很好的例子。仅仅依靠统计词频,就能找出关键词和相似文章。虽然它们算不上效果最好的方法,但肯定是最简便易行的方法。今天,依然继续这个主题。讨论如何通过词频,对文章进行自动摘要(Automatic summarization)。如果能从3000字的文章,提炼出150字的摘要,就可以为读者节省大量阅读转载 2016-03-20 22:26:06 · 805 阅读 · 1 评论 -
TF-IDF与余弦相似性的应用(一):自动提取关键词
这个标题看上去好像很复杂,其实我要谈的是一个很简单的问题。有一篇很长的文章,我要用计算机提取它的关键词(Automatic Keyphrase extraction),完全不加以人工干预,请问怎样才能正确做到?这个问题涉及到数据挖掘、文本处理、信息检索等很多计算机前沿领域,但是出乎意料的是,有一个非常简单的经典算法,可以给出令人相当满意的结果。它简单到都不需要高等数学,普通人只用1转载 2016-03-20 22:05:24 · 455 阅读 · 0 评论 -
样本间的距离或者相似度度量方法
一般而言,定义一个距离函数 d(x,y), 需要满足下面几个准则:1) d(x,x) = 0 // 到自己的距离为0 2) d(x,y) >= 0 // 距离非负 3) d(x,y) = d(y,x) // 对称性: 如果 A 到 B 距离是 a,那么 B 到 A 的距离也应该是 a 4) d(x,k) + d(k,y) >= d(x,y) // 三角形法则: (两边之和大原创 2016-03-20 17:22:12 · 15984 阅读 · 0 评论 -
浅谈模式识别中的特征提取
这两天一直在看深度学习的东西,看的头晕脑胀,不过晕乎归晕乎,感觉对模式识别中的特征提取有了更深一点的小理解,暂时记载下来。突然觉得,模式识别的所有问题都绕不过两个关键门槛,第一是分类器,第二便是特征提取。而且几乎所有模式识别方面的研究都是在优化这两个问题,要么是造一个更牛的分类器,要么是找出一些表现力更高的特征形式。然而这个问题再最近几年变得不那么明朗了,分类器的研究不用多说,从刚转载 2016-06-03 13:21:21 · 1240 阅读 · 0 评论