大数据
文章平均质量分 74
sky1203850702
所有的好走的路都是下坡
展开
-
数据挖掘十大经典算法之SVM
支持向量机,英文为Support Vector Machine,简称SV机(论文中一般简称SVM)。它是一种監督式學習的方法,它广泛的应用于统计分类以及回归分析中。支持向量机属于一般化线性分类器.他们也可以认为是提克洛夫规范化(Tikhonov Regularization)方法的一个特例.这族分类器的特点是他们能够同时最小化经验误差与最大化几何边缘区.因此支持向量机也被称为最大边缘区分类转载 2012-10-23 22:04:40 · 939 阅读 · 0 评论 -
Hadoop分布式文件系统:架构和设计要点
Hadoop分布式文件系统:架构和设计要点一、前提和设计目标1、硬件错误是常态,而非异常情况,HDFS可能是有成百上千的server组成,任何一个组件都有可能一直失效,因此错误检测和快速、自动的恢复是HDFS的核心架构目标。2、跑在HDFS上的应用与一般的应用不同,它们主要是以流式读为主,做批量处理;比之关注数据访问的低延迟问题,更关键的在于数据访问的高吞吐量。3、HDFS以支转载 2015-08-20 14:41:44 · 546 阅读 · 0 评论 -
Thinking in BigData(一)前序
本文转自: http://blog.csdn.net/yczws1/article/details/18709003谁也无法说服他人改变,因为我们每一个人都守着一扇只能从内开启的改变之门,不论动之以情或说之以理,我们都不能替别人开门。 ——弗格森 BigData这一名词,第一次蹦出脑袋应转载 2015-08-21 14:40:56 · 704 阅读 · 0 评论 -
Hadoop简介(分布式系统基础架构)
Hadoop求助编辑百科名片 Hadoop示意图一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有着高容错性的特点,并且设转载 2015-08-21 09:47:13 · 1277 阅读 · 0 评论 -
Hadoop技术内幕:深入解析MapReduce架构设计与实现原理
这里帮宣传下,董西城的书, Hadoop技术内幕:深入解析MapReduce架构设计与实现原理 http://item.jd.com/11226135.html 大致看下目录,就可以系统的了解hadoop的学习思路了。这里把目录贴在这里。 前言第一部分 基础篇第1章 阅读源代码前的准备1.1 准备源代转载 2015-08-21 09:17:02 · 1724 阅读 · 0 评论 -
世界沉醉在数据里
作者:郭安琪,唯品会美国研发中心2015年6月9-11日,我在美国加州硅谷参加了第八届全球Hadoop技术峰会(Hadoop Summit 2015)。在短短的3天时间里我既见识到了Hortonwork, Cloudera, SAP, IBM,惠普,雅虎等25+数据服务技术提供商围绕大数据设计开发的产品,也聆听了Schlumberger(能源巨头),verizon(通信巨头),转载 2015-08-20 09:30:58 · 600 阅读 · 0 评论 -
Hadoop导航:版本、生态圈及MapReduce模型
Hadoop版本和生态圈1. Hadoop版本(1) Apache Hadoop版本介绍Apache的开源项目开发流程:主干分支:新功能都是在主干分支(trunk)上开发。特性独有分支:很多新特性稳定性很差,或者不完善,在这些分支的独有特定很完善之后,该分支就会并入主干分支。候选分支:定期从主干分支剥离,一般候选分支发布,该分支就会停止更新新功能,如转载 2015-08-19 09:28:10 · 583 阅读 · 0 评论 -
大数据介绍
大数据技术的战略意义不在于掌握庞大的数据量,而在于对这些数据进行专业化处理。数据一直都在以每年50%的速度增长,也就是说每两年就增长一倍。大数据是由结构化和非结构化数据组成的– 10%的结构化数据,存储在数据库中– 90%的非结构化数据,它们与人类信息密切相关数据结构(参阅c语言数据结构)数据结构是计算机存储、组织数据的方式。数据结构是指相互之间存在一种或多转载 2015-08-18 14:39:37 · 2558 阅读 · 0 评论 -
大数据核心技术ETL简介
前几篇文章都是根据自己所见所知,在前人的基础上加以整合,对大数据概念有了初步的了解。接下来的四篇文章,抛开大数据的概念与基本知识,进入核心。我们从:数据采集、数据存储、数据管理、数据分析与挖掘,四个方面讨论大数据在实际应用中涉及的技术与知识点。核心技术架构挑战:1、对现有数据库管理技术的挑战。2、经典数据库技术并没有考虑数据的多类别(variety)、SQL(结构化转载 2015-08-25 14:53:12 · 10909 阅读 · 0 评论 -
数据挖掘十大经典算法之KNN
邻近算法KNN算法的决策过程 k-Nearest Neighbor algorithm 右图中,绿色圆要被决定赋予哪个类,是红色三角形还是蓝色四方形?如果K=3,由于红色三角形所占比例为2/3,绿色圆将被赋予红色三角形那个类,如果K=5,由于蓝色四方形比例为3/5,因此绿色圆被赋予蓝色四方形类。 K最近邻(k-Nearest Neighbor,K转载 2012-10-23 22:02:39 · 1035 阅读 · 0 评论 -
BAT的互联网大数据应用有何不同?
本文转自: http://www.leiphone.com/news/201410/iUGJrbnLAQEpu65W.html互联网行业在大数据的积累和应用以百度、腾讯和阿里巴巴最为值得关注。百度、腾讯和阿里巴巴在大数据的应用上虽然有共同的地方,但由于各自的数据来源和商业模式的不同,其大数据应用也有不同的特色。本文将分析他们拥有的数据资产和应用,以方便大家了解大型互联网企业的大数据现状和未转载 2015-03-18 19:36:37 · 1371 阅读 · 0 评论 -
大数据在金融行业的应用
本文转自:http://www.leiphone.com/news/201411/BW3iFXbV2mdPrIDt.html【编者按】本文作者傅志华先生(公众号:傅志华)曾为腾讯社交网络事业群数据中心总监以及腾讯公司数据协会会长。在腾讯前,曾就职于艾瑞市场咨询、易观国际、中国互联网协会,并任DCCI互联网数据中心副总裁。数据显示,中国大数据IT应用投资规模以五大行业最高,其中以转载 2015-03-17 19:34:57 · 6072 阅读 · 0 评论 -
用于数据挖掘的数据
1、气候监测数据集 http://cdiac.ornl.gov/ftp/ndp026b2、几个实用的测试数据集下载的网站http://www.cs.toronto.edu/~roweis/data.htmlhttp://www.cs.toronto.edu/~roweis/data.htmlhttp://kdd.ics.uci.edu/summary.task.type.html转载 2013-01-05 19:02:03 · 696 阅读 · 0 评论 -
数据挖掘十大经典算法简介
国际权威的学术组织the IEEE International Conference on Data Mining (ICDM) 2006年12月评选出了数据挖掘领域的十大经典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART.不仅仅是选中的十大算法,其实参加评选的18种算法,实际转载 2012-10-23 22:09:05 · 721 阅读 · 0 评论 -
数据挖掘十大经典算法之NB
贝叶斯分类器 贝叶斯分类器的分类原理是通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。目前研究较多的贝叶斯分类器主要有四种,分别是:Naive Bayes、TAN、BAN和GBN。 贝叶斯网络是一个带有概率注释的有向无环图,图中的每一个结点均表示一个随机变量,图中两结点 间若存在着一条弧,则表示这转载 2012-10-23 22:06:15 · 3079 阅读 · 0 评论 -
数据挖掘十大经典算法之AdaBoost
Adaboost是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器)。其算法本身是通过改变数据分布来实现的,它根据每次训练集之中每个样本的分类是否正确,以及上次的总体分类的准确率,来确定每个样本的权 值。将修改过权值的新数据集送给下层分类器进行训练,最后将每次训练得到的分类器最后融合起来,作为最后的决策分类器。使转载 2012-10-23 22:07:48 · 592 阅读 · 0 评论 -
Thinking in BigData(二)大数据时代下的变革
大数据时代的思维变革 A Revolution That Will Transform How We Live, Work, and Think. 不期而遇的一本《大数据时代》将我引进大数据的领域。这个浪里淘沙的时代,我们都站在这个时代改革的前沿,而作为互联网最具爆发力的一种媒介,它给我传递着什么资讯?如果说我们错过了2000年左右的互联网浪潮,错过电商竞转载 2015-08-22 09:34:23 · 1882 阅读 · 0 评论