数据挖掘基础
文章平均质量分 93
Alan的修炼
12年读研究生,一路走来,接触和学习到很多知识,看到了以前不曾想到的风景,感悟到很多。这里进行梳理总结。
展开
-
STING:统计信息网格(STatistical INformation Grid)
转自:http://wiki.madio.net/index.php?doc-view-1002 STING是一个基于网格的多分辨率聚类技术,它将空间区域划分为矩形单元。针对不同级别的分辨率,通常存在多个级别的矩形单元,这些单元形成了一个层次结构:高层的每个单元被划分为多个低一层的单元。关于每个网格单元属性的统计信息(例如平均值,最大值,和最小值)被预先计算和存储。这些统计变量可以方便下面描转载 2013-07-11 18:50:24 · 6784 阅读 · 1 评论 -
机器学习——深度学习(Deep Learning)
转自:http://blog.csdn.net/abcjennifer/article/details/7826917 algorithmclassificationfeaturesfunctionhierarchy Deep Learning是机器学习中一个非常接近AI的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,最近研究了机器学习中一些深度学习的相关知识,本文给出一些很转载 2013-08-18 12:14:37 · 1517 阅读 · 0 评论 -
大数据:“人工特征工程+线性模型”的尽头
转自:http://qing.blog.sina.com.cn/mli65 +关注 大数据:“人工特征工程+线性模型”的尽头 165 11年的时候我加入百度,在凤巢使用机器学习来做广告点击预测。当时非常惊讶于过去两年内训练数据如此疯狂的增长。大家都在热情的谈特征,每次新特征的加入都能立即得到AUC的提升和收入的增长。大家坚信特征才是王道,相信还会有源转载 2013-09-13 15:08:57 · 835 阅读 · 0 评论 -
大数据量的算法
转自:http://www.cppblog.com/Sandywin/archive/2011/11/07/159778.html 大数据量的算法 第一部分、十道海量数据处理面试题 1、海量日志数据,提取出某日访问百度次数最多的那个IP。 首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方转载 2013-09-13 15:09:47 · 896 阅读 · 0 评论 -
数据挖掘分类技术
数据挖掘分类技术 分类: 数据挖掘2013-01-05 14:04 156人阅读 评论(0) 收藏 举报 1、过分拟合问题: 造成原因有:(1)噪声造成的过分拟合(因为它拟合了误标记的训练记录,导致了对检验集中记录的误分类);(2)根据少量训练记录做出分类决策的模型也容易受过分拟合的影响。(由于训练数据缺乏具有代表性的样本,在没有多少训练记录的情况下,学习算法仍转载 2013-09-13 15:13:18 · 1399 阅读 · 0 评论 -
数据挖掘——学习笔记(机器学习--监督,非监督,半监督学习)
数据挖掘——学习笔记(机器学习--监督,非监督,半监督学习) http://blog.sina.com.cn/s/blog_627a4f560100xmj1.html 在机器学习(Machine learning)领域,监督学习(Supervised learning)、非监督学习(Unsupervised learning)以及半监督学习(Semi-supervised lear转载 2013-09-16 14:57:12 · 1326 阅读 · 0 评论