自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

大数据学习中心

大数据学习中心

  • 博客(42)
  • 收藏
  • 关注

原创 大数据之Spark基础篇,核心RDD特征分析讲解

RDD特征概要总结:a、RDD是Spark提供的核心抽象,全称为Resillient Distributed Dataset,即弹性分布式数据集。b、RDD在抽象上来说是一种元素集合,包含了数据。它是被分区的,分为多个分区,每个分区分布在集群中的不同节点上,从而让RDD中的数据可以被并行操作。c、RDD通常通过Hadoop上的文件,即HDFS文件或者Hive表,来进行创建;有时也可以通过...

2019-05-20 21:59:45 418

原创 资源控制在大数据和云计算平台中的应用

在大数据迅速发展的今天,很大一部分支持来自于底层技术的不断发展,其中非常重要的一点就是系统资源的管理和控制,大数据平台的核心就是对资源的调度管理,在调度和管理之后如何对这些资源进行控制便成了另一个重要的问题。大数据系统中用户成千上万的作业进程跑在集群中,如果不能对这些进程的资源进行控制,那么大数据平台将变得举步维艰,整个集群便会随时崩溃。同时,大数据作业的调度也是基于资源的配额进行分配,大数...

2019-05-20 21:59:43 485

原创 hadoop学习之基础hadoop机架感知

Hadoop是一个能够对大量数据进行分布式处理的软件框架,实现了Google的MapReduce编程模型和框架,能够把应用程序分割成许多的小的工作单元(块),并把这些单元放到任何集群节点上执行。在MapReduce中,一个准备提交执行的应用程序称为“作业(job)”,而从一个作业划分出得、运行于各个计算节点的工作单元称为“任务(task)”。此外,Hadoop提供的分布式文件系统(HDFS)主要...

2019-05-20 21:59:41 245

原创 从小白到大数据技术专家的学习线路图

大数据处理技术怎么学习呢?首先我们要学习Java语言和Linux操作系统,这两个是学习大数据的基础,学习的顺序不分前后。Java:大家都知道Java的方向有JavaSE、JavaEE、JavaME,学习大数据要学习那个方向呢?只需要学习Java的标准版JavaSE就可以了,像Servlet、JSP、Tomcat、Struct、Spring、Hibernate,Mybites都是JavaEE...

2019-05-19 21:59:48 561

原创 25个大数据专业术语入门大数据必备知识

如果你初来乍到,大数据看起来很吓人!根据你掌握的基本理论,让我们专注于一些关键术语以此给你的约会对象、老板、家人或者任何一个人带来深刻的印象。让我们开始吧:1.算法。“算法”如何与大数据相关?即使算法是一个通用术语,但大数据分析使其在当代更受青睐和流行。2.分析。年末你可能会收到一份来自信用卡公司寄来的包含了全年所有交易记录的年终报表。如果你有兴趣进一步分析自己在食物、衣服、娱乐等方面...

2019-05-19 21:59:45 3068

原创 如何快速全面建立自己的大数据知识体系?

很多人都看过不同类型的书,也接触过很多有关大数据方面的文章,但都是很零散不成系统,对自己也没有起到多大的作用,所以作者第一时间,带大家从整体体系思路上,了解大数据产品设计架构和技术策略。大数据产品,从系统性和体系思路上来做,主要分为五步:• 针对前端不同渠道进行数据埋点,然后根据不同渠道的采集多维数据,也就是做大数据的第一步,没有全量数据,何谈大数据分析;• 第二步,基于采集回来的...

2019-05-19 21:58:54 252

原创 大数据框架Hadoop基础入门模块

hadoop Common: 包括Hadoop常用的工具类,由原来的Hadoop core部分更名而来。主要包括系统配置工具Configuration、远程过程调用RPC、序列化机制和Hadoop抽象文件系统FileSystem等。它们为在通用硬件上搭建云计算环境提供基本的服务,并为运行在该平台上的软件开发提供了所需的API。大数据Hadoop Distributed File Syste...

2019-05-19 21:27:37 189

原创 大数据行业六大核心发展趋势

1、应用层级爆发出强大的增长力及机遇大数据并不在“大”,而在于“用”。对于很多行业而言,如何有效应用这些大规模数据、挖掘出更大的价值是成为赢得竞争的关键。因此,大数据的应用成为未来十年产业发展的核心趋势,大数据产业链条的应用层级也成为发展机会最大的投资领域。大数据时代的核心应用方向主要包括智慧城市、旅游、医疗健康、教育、电子商务以及游戏、社交媒体等,移动互联网是未来10年IT产业的下一...

2019-05-18 11:14:40 3645 1

原创 大数据工具 在数据科学家眼中是怎样的存在?

数据科学家们通常喜欢把后端技术扔给工程师来处理。当你的主要关注点是提高模型的预测精度或发现一个数据集中的未知相关性时,文件系统和资源管理工具通常情况下并不十分友好。但随着大数据工具数量的增长和计算能力的飞跃,数据科学家越来越多地发现,如果他们想从自己的模型中获得最佳性能,那就必须考虑所使用的数据管道。“有了更强的计算能力,我们可以进行多次回归操作,这很让人兴奋,”Brendan Herge...

2019-05-18 11:14:20 1403

原创 想要从大数据中获益?请先做好Hadoop管理

数据湖泊是一个大量信息的集合体,此外还包括成千上万的CPU和超过30 pb级的存储容量。为了保证其平稳运行,IT团队实现了主动Hadoop监测和数据治理过程,此外还包括一系列集群管理工具。“为确保Comcast'的Hadoop用户可以正常的运行应用程序,我们开始使用数据治理功能,”Michael Fagan说道,他是位于Philadelphia的电视电影集团的首席大数据架构师。管理工作主要包括...

2019-05-18 11:13:39 1311 1

原创 大数据同步工具DataX与Sqoop之比较

从接触DataX起就有一个疑问,它和Sqoop到底有什么区别,昨天部署好了DataX和Sqoop,就可以对两者进行更深入的了解了。两者从原理上看有点相似,都是解决异构环境的数据交换问题,都支持oracle,mysql,hdfs,hive的互相交换,对于不同数据库的支持都是插件式的,对于新增的数据源类型,只要新开发一个插件就好了,但是只细看两者的架构图,很快就会发现明显的不同。DataX架构...

2019-05-17 22:00:18 4413

原创 大数据零基础入门必须学的十大最热门的大数据技术

随着大数据分析市场快速渗透到各行各业,哪些大数据技术是刚需?哪些技术有极大的潜在价值?根据弗雷斯特研究公司发布的指数,这里给出最热的十个大数据技术:预测分析:随着现在硬件和软件解决方案的成熟,许多公司利用大数据技术来收集海量数据、训练模型、优化模型,并发布预测模型来提高业务水平或者避免风险;NoSQL数据库:非关系型数据库包括Key-value型(Redis)数据库、文档型(Monog...

2019-05-17 21:23:09 357

原创 Hadoop大数据生态系统及常用组件简介

经过多年信息化建设,我们已经进入一个神奇的“大数据”时代,无论是在通讯社交过程中使用的微信、QQ、电话、短信,还是吃喝玩乐时的用到的团购、电商、移动支付,都不断产生海量信息数据,数据和我们的工作生活密不可分、须臾难离。什么是大数据什么是大数据,多大算大,100G算大么?如果是用来存储1080P的高清电影,也就是几部影片的容量。但是如果100G都是文本数据,比如我们的后端kafka里的数据,...

2019-05-17 21:05:38 2357 1

原创 Hadoop学习之旅一:Hello Hadoop

学习大数据必先学习Hadoop,因为它是目前世界上最流行的分布式数据处理框架。Tips:所谓大数据,是指数据量庞大、产生数度快、结构多样的价值密度低的数据。其中,数据量庞大是指数据规模超出了1,2台高性能主机所能处理范围;结构多样性是指除了关系型数据库能够处理的结构化数据还包含半结构化数据(如各类传感设备必如地镑、卫星、GPS设备等产生的纯文本格式的数据,还有良心网站NASA官网公布的txt格...

2019-05-17 21:04:30 1427 1

原创 hadoop究竟是什么鬼?

建立在大数据背景之下当然,要解释清楚什么是Hadoop那得要从大数据说起。在20多年前,也就是上个世纪90年代,数据大量产生(也并不是之前没有这么多数据,而是由于科学技术的原因,这些日常生活中的数据转瞬即逝并没有被人们记录下来),这个“大量产生”有多么夸张呢,现在的数据量相当于之前数据量的上百上千倍!数据如此快速地增长势必带来一些问题,我们先来做一道小学3年级的应用题,请听题:90年代的数...

2019-05-17 21:03:32 1605

原创 大数据收益 主流Hadoop用户有话说

对于密歇根的Blue Cross Blue Shield公司来说,大数据部署并不是一时冲动的决定。Beata Puncevic是这家医疗保险公司分析总监,负责数据工程和数据管理,她说:“对于很多像我们这样的组织,大数据还没有成为运营业务的核心基础。如果你去对很多人(主管)讲,让他们在大数据平台上投资,你是很难与他们产生共鸣的,这是很大的挑战。”Puncevic认为,对于Blue Cross...

2019-05-17 21:02:24 181

原创 Hadoop和大数据:60款顶级开源工具

说到处理大数据的工具,普通的开源解决方案(尤其是Apache Hadoop)堪称中流砥柱。本文提到的这些Hadoop和大数据应用程序在帮助众多企业管理和分析大量数据。说到处理大数据的工具,普通的开源解决方案(尤其是Apache Hadoop)堪称中流砥柱。弗雷斯特调研公司的分析师Mike Gualtieri最近预测,在接下来几年,“100%的大公司”会采用Hadoop。Market Re...

2019-05-16 21:59:36 652

原创 如何让Hadoop结合R语言做统计和大数据分析?

广大R语言爱好者借助强大工具RHadoop,可以在大数据领域大展拳脚,这对R语言程序员来说无疑是个喜讯。R是GNU的一个开源工具,具有S语言血统,擅长统计计算和统计制图。由Revolution Analytics发起的一个开源项目RHadoop将R语言与Hadoop结合在一起,很好发挥了R语言特长。广大R语言爱好者借助强大工具RHadoop,可以在大数据领域大展拳脚,这对R语言程序员来说...

2019-05-16 21:59:33 1133

原创 总结大数据、物联网和云计算市场上的经验和规律

大数据正在改变我们的生活,影响我们思考和解决问题的方式,为了适应时代的潮流,组织必须学会用数据说话,如果坐拥大量的数据却束手无策或无动于衷,那和没有数据是一样的。但是,在进行数据分析时,完全的自我创造是不可取的,因为有大量可以遵循和借鉴的经验能节约大量的时间和成本。最近,OrionX.net的联合创始人Shahin Khan就发表了一篇文章,介绍了他的团队从大数据、物联网和云计算市场上总结的经验...

2019-05-16 21:59:31 337

原创 探讨人工智能、深度学习、大数据等术语的定义

计算机运算对于上世纪80年代的我们来说是件非常兴奋的事,还记得我们第一次启动386DX处理器的场景。对,是”DX”,不是”MX”。尽管没人能够正确说出“DX”在数学或其它方面的优势是什么,但我们仍然会付出额外的200美元在Super VGA图形卡上安装16MHz的386DX,然后让那个坏男孩上钩,去CompuServe购买快如闪电的14,400 波特的U.S. Robotics “Sportste...

2019-05-16 21:59:10 275

原创 大数据框架Hadoop和Spark的异同

谈到大数据,相信大家对Hadoop和Apache Spark这两个名字并不陌生。但我们往往对它们的理解只是提留在字面上,并没有对它们进行深入的思考,下面不妨跟我一块看下它们究竟有什么异同。解决问题的层面不一样首先,Hadoop和Apache Spark两者都是大数据框架,但是各自存在的目的不尽相同。Hadoop实质上更多是一个分布式数据基础设施:它将巨大的数据集分派到一个由普通计算机组成的集群...

2019-05-16 21:59:07 412

原创 Spark概念解读以及与Hadoop技术对比

Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。Spark概念  Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用并行框架,Spark...

2019-05-16 21:59:04 639

原创 云计算及数据中心未来发展的5个趋势

如今,大数据时代已经降临,云端的作用日益凸显。人们几乎可以摆脱传统的硬件储存方式,只要有能上网,人们便可轻易从云数据中心进行储存、调取各种所需资料,如图片、文档、大容量视频以及企业信息等。那么在未来几年,云计算和数据中心有什么样的发展趋势呢?有专家列出以下5点重要趋势:1、云应用APIOpenStack、VMware、CloudStack和亚马逊等都是通过“云”连接创建简单的方法,运用AP...

2019-05-15 16:35:38 2552

原创 必须知道:关于大数据的七个概念

在大多数人根本不知道大数据(Big Data)到底是什么的时候,不可否认的是,大数据已经在 21 世纪掀起一场惊涛骇浪。根据研究机构 IDC(国际数据资讯公司)的分析,这个世界上的资料正在以每两年就翻倍的惊人速度增加中。了解大数据、如何利用巨量资料,成了人人关心的重点议题。尽管大数据的定义各家歧异,但基本上,大数据领域里的每个人都同意一点:大数据不仅仅是指更多资料而已。这篇文章整理出 7 ...

2019-05-15 16:34:54 492

原创 常见的Hadoop十大应用误解

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。以下是常见的Hadoop十大应用误解和正解。1. (误解) Hadoop什么都可以做(正解) 当一个新技术出来时,我们都会去思考它在各个不同产业的应用,而对于平台的新技术来说,我们思考之后常会出现这样的结论 “这个好像什么都能做...

2019-05-15 16:34:12 163

原创 汇总:我们遇到过的Hadoop问题

我们的Hadoop版本经历过0.20.X、1.0.3、2.3.0 ,在我手上经历过的主要是1.0.3 和2.3.0的版本,这期间遇到过一些问题,有些是经验不足导致,有些是不按规范操作引起的,有些是版本自身bug,正因为经历了这些问题才丰富了自身经验,今天简单介绍一下这两年多我们遇到过的问题,希望对你能有一些借鉴。fsimage文件损坏2012年9月,hadoop集群跨机房迁移,新机房供电不...

2019-05-15 16:33:25 353

原创 Hadoop的生命周期有多久?

Hadoop技术已经无处不在。不管是好是坏,Hadoop已经成为 大数据 的代名词。短短几年间,Hadoop从一种边缘技术成为事实上的标准。看来,不仅现在Hadoop是企业 大数据 的标准,而且在未来,它的地位似乎一时难以动摇。谷歌文件系统与MapReduce我们先来探讨一下Hadoop的灵魂——MapReduce。面对数据的爆炸性增长,谷歌的工程师Jeff Dean和Sanjay G...

2019-05-15 16:32:37 619

原创 大数据时代,你需要知道的六件事

大数据为什么会改变企业?因为大数据是一种全新的思维方式。过去我们总是在考虑样本空间、颗粒度、选择方法等等问题,而随着大数据的普及,这些问题统统称为了过去式;以前很复杂的问题,现在也变得越来越简单了。但正是由于大数据神乎其神的效果,因此越来越多的用户开始神化大数据,也在大数据的使用过程中产生了一些误解。毫无疑问,大数据是个系统性的综合工程,而在这个领域中Informatica是公认的先行...

2019-05-15 16:31:55 483

原创 企业大数据部署 Hadoop的新选择

直至今日,企业虽然认识到大数据分析能给企业带来发展的价值,但传统的数据管理和安全问题已经阻碍了大数据的部署。企业在什么情况下适合大数据,这是由企业处于发展中的位置决定的。许多提供大数据业务的厂商肯定都争相想做企业的生意。毕竟,大的数据不是最小的数据集合,但大数据需要充分利用尽可能多的数据管理。如果你正在寻找一个部署大数据的定义,这却不是完整的定义。你需要一个增长的数据中心基础设施相匹配所有...

2019-05-15 16:31:11 198

原创 Hadoop 2.0 上深度学习的解决方案

波士顿的 数据科学团队正在利用尖端工具和算法来优化商业活动,且这些商业活动是基于对用户数据中的深刻透析。数据科学大量使用机器算法,可以帮助我们在数据中识别和利用模式。从互联网大规模数据中获取透析是一项具有挑战性的任务,因此,能大规模运行算法是一个至关重要的需求。伴随着数据的爆炸性增长和成千上万的机器集群,我们需要使算法可以适应在如此分布的环境下运行。在通用的分布式计算环境中运行机器学习算法具有一系...

2019-05-15 16:30:11 584

原创 应该在什么时候使用Hadoop

有人问我,“你在大数据和Hadoop方面有多少经验?”我告诉他们,我一直在使用Hadoop,但是我处理的数据集很少有大于几个TB的。他们又问我,“你能使用Hadoop做简单的分组和统计吗?”我说当然可以,我只是告诉他们我需要看一些文件格式的例子。他们递给我一个包含600MB数据的闪盘,看起来这些数据并非样本数据,由于一些我不能理解的原因,当我的解决方案涉及到pandas.read_csv文...

2019-05-15 16:29:10 848

原创 如何挑选合适的大数据或Hadoop平台?

BM、Oracle、SAP、甚至Microsoft等几乎所有的大型软件提供商都采用了Hadoop。然而,当你已经决定要使用Hadoop来处理大数据时,首先碰到的问题就是如何开始以及选择哪一种产品。本文讨论了不同的选择,并推荐了每种选择的适用场合。Hadoop平台的多种选择下图展示了Hadoop平台的多种选择。你可以只安装Apache 发布版本,或从不同提供商所提供的几个发行版本中选择一个,...

2019-05-15 16:27:40 266

原创 五个改变生活的大数据实践项目

大数据从前几年计入人们的视野开始,每个人都在期待着大数据所带来的价值,因此大数据技术被誉为是可以改变世界的技术。然而在这几年的热炒中已经褪去了它们最初的光环,而且这种退潮的速度很快,因而一些怀疑论者对于大数据技术也持有一种保守的看法。但是,那些怀疑论者对于大数据的质疑程度却远远低于对云计算和社交媒体的质疑。这可能是因为大数据已为那些拥抱大数据的企业带来了实际的收益。而且,大数据分析也正在从根本上...

2019-05-13 21:59:51 656

原创 云计算和大数据分析正在向数据中心渗透,IT人员面临新选择

因为大型机的计算能力特别强,因此采用可逻辑地划分成相互隔离的小型虚拟机的设计,然后凭借虚拟技术,即可在一个大型机上同时运行多个项目。随着时间的推移,大部分行业已经从大型机转向使用小型机及PC进行计算。目前,基于X86体系结构的计算机或服务器所面临的挑战与上个世纪60年代大型机面临的挑战相同。X86架构虚拟化技术已经将大型机的分区方法应用到目前基于X86体系结构的计算机上。由于服务器虚拟化的概念和...

2019-05-13 21:59:47 963

原创 一分钟了解大数据的价值

一分钟?发发呆就过去了,但是在互联网上会发生些什么呢?据统计,每分钟Youtube超过500万的视频观看量;Amazon2 5万份商品被购买Youtube超过500万的视频观看量;Amazon2.5万份商品被购买;Apple1.5万首音乐;Google266万次搜索;Facebook29.3万次赞;…还需要列举更多吗?你大概会说哦!天啊!没错,在这个大数据时代,数据的爆发估计让上...

2019-05-13 21:59:43 880

原创 揭秘:需要知道的关于云计算的十大术语

云计算是当前的一个热门话题,但是如果你想了解云计算的时候,你需要先从一些技术词语下手。这里笔者为那些想了解云计算网友总结了关于云计算的常见十大术语。1.混合云云计算是当前的一个热门话题,但是如果你想了解云计算的时候,你需要先从一些技术词语下手。这里笔者为那些想了解云计算网友总结了关于云计算的常见十大术语。SaaS,BDaaS和IaaS看到上面三个英文单词,可能很多人会表示不解,其实了解这三...

2019-05-13 21:59:41 375

原创 大数据所见即所得,人机共同进化之端倪

《互联网时代》已经结束,在最后一集《瞭望》中对互联网与人类的未来做了大胆却不乏逻辑性的总结与推测:互联网时代开启的黎明,人类的未知远 远大于已知。基于今天的科技试验和技术展望,眺望互联网时代未来的可能,其中芯片技术、传感器、云计算的飞速发展,会让万物相连,无处不在的智能化会变成 普遍现象。计算机、互联网与生物技术的结合,也会呈现出“人机共同进化”的可能。未来 并非遥不可及,回到当下可以明确的知道...

2019-05-13 21:59:38 227

原创 大数据架构师:hadoop、Storm该选哪一个?

首先整体认识:Hadoop是磁盘级计算,进行计算时,数据在磁盘上,需要读写磁盘;Storm是内存级计算,数据直接通过网络导入内存。读写内存比读写磁盘速度快n个数量级。根据Harvard CS61课件,磁盘访问延迟约为内存访问延迟的75000倍。所以Storm更快。注释:延时 , 指数据从产生到运算产生结果的时间,“快”应该主要指这个。吞吐, 指系统单位时间处理的数据量。stor...

2019-05-13 21:59:34 133

原创 大数据的未来是App 而非基础架构

在大数据被各种媒体热炒的同时,真相被蒙蔽了:App才是大数据的未来。过去基础架构和平台一直是被捧吹的对象,但它们只提供了承载大数据的环境,无法利用大数据创造长期价值,所以它们并不是大数据的未来核心。在市场上它需要公司提供大数据App,能够洞察特定市场版块或业务流程、及时反馈数据、到达尽可能多的调差对象。因为很少有熟练的大数据从业者可以为每个组织(公司)提供非常专业的数据分析服务。而且,近期不仅...

2019-05-13 21:59:31 153

原创 大数据、物联网、机器人是怎样联系在一起的?

在未来网络的时代,“物联网”、“大数据”“云计算”和“机器人”都已经是大势所趋。但这些趋势是相互联系在一起的,联系成一个大趋势,就像“万有理论”,在这个链条里,每一环都会对下一环产生影响,如此产生积极的循环。各种连接的设备里的传感器会产生大量数据,海量数据使得机器学习成为可能,机器学习的结果就是AI,而AI又指导机器人去更精确地执行任务,机器人的行动又会触发传感器。这整个就是一个完整的循环。...

2019-05-13 21:59:27 382

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除