数据挖掘
文章平均质量分 78
雅言敦行
处世不求无难,世无难则骄奢必起;谋事不求易成,事易成则志存轻慢。
展开
-
Coursera台大机器学习课程笔记3 – 机器学习的可能性
提纲:机器学习为什么可能?引入计算橙球概率问题通过用Hoeffding's inequality解决上面的问题,并得出PAC的概念,证明采样数据学习到的h的错误率可以和全局一致是PAC的将得到的理论应用到机器学习,证明实际机器是可以学习 机器学习的大多数情况下是让机器通过现有的训练集(D)的学习以获得预测未知数据的能力,即选择一个最佳的h做为学习结果,那么这种预测是可转载 2015-02-06 13:44:05 · 335 阅读 · 0 评论 -
win7环境Python网络爬虫安装第三方库lxml出现问题
win7环境Python网络爬虫安装第三方库lxml出现问题: could not find xmlCheckVersion in library libxml2可以试一下这个链接的方法:http://stackoverflow.com/questions/33785755/getting-could-not-find-function-xmlcheckversion-in-library-lib原创 2016-10-09 00:00:29 · 338 阅读 · 0 评论 -
大数据研究背景
随着物联网、社交网络、云计算等技术不断融入我们的生活以及现有的计算能力、存储空间、网络带宽的高速发展,人类积累的数据在互联网、通信、金融、商业、医疗等诸多领域不断地增长和累积[1]。互联网搜索引擎支持的数十亿次web搜索每天处理数万TB字节数据。全世界通信网的主干网上一天就有万TB字节数据在传输[2]。大型商场遍及世界各地的数以千计的门店每周都要处理数亿交易。现代医疗行业如医院、药店等也都每天产生庞原创 2016-11-27 11:11:35 · 15915 阅读 · 0 评论 -
传统分类算法以及流计算分类算法
传统的数据挖掘算法如ID3、C4.5首先都是通过先将数据存储到静态数据库中,当需要进行数据挖掘时再将数据提取出来进行处理,并且现行的算法也大都不是增量式的数据流挖掘,而是将流数据进行存储并转换。分类算法作为有监督的数据挖掘,需要通过分析数据流中数据的特征建立模型从而将未知类标签的数据项对应到相应的类别中从而实现分类的目的。K近邻分类算法、决策树分类算法和贝叶斯分类算法都是一些常用的针对静态数据集的分原创 2016-11-27 11:18:50 · 6853 阅读 · 0 评论 -
概念漂移
大数据具有规模性(volume)、多样性(variety)、高速性(velocity)和准确性(veracity)四个特点,其前期研究工作主要集中在规模性和多样性上展开,而目前广泛存在并应用的数据是像金融、交通等场景下产生的流式数据,流数据不同于传统的静态数据形态,作为一种新型大数据的数据形态更多的体现了大数据要求的数据量大和实时性的特点。流数据需要我们从海量信息中更快的提取有价值的信息。因此,面原创 2016-11-27 11:32:51 · 6704 阅读 · 3 评论 -
传统抵抗概念漂移算法和系统
(1) STAGGER和FLORA 有效的抵抗概念漂移算法及系统需要能够追踪数据流概念漂移所发生的变化并不断的适时的根据变化而更新现有的模型。最早能够处理概念漂移问题的是FLORA和STAGGER[28]系统。目前来处理概念漂移问题主要有三方面的思路,一是通过实例选择,通过选择最近概念的实例来建立模型。一种是通过对实例设置权重来决定哪些实例更具有建立模型的价值。最后一种是通过集成学习通过投票或者权原创 2016-11-27 11:36:02 · 2813 阅读 · 0 评论 -
基于分布式计算平台的流数据挖掘框架设计
随着人们在互联网、金融、物联网等领域的应用和普及日益频繁,数据的体量和形式也正随着人们的使用而变得日益庞大和复杂。数据正在以一种前所未有的方式疯狂增长,这不仅给数据挖掘带来了价值,也同时给从事数据挖掘的专家和学者们带来了难题。传统数据挖掘研究分析的数据是存储到磁盘的数据,属于静态的数据,数据量较小并且数据不会随着时间发生动态变化。而大数据不仅在体量上是海量数据的规模,而且更加复杂和多维。更重要的是,原创 2016-11-27 11:26:21 · 1556 阅读 · 0 评论