自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

hadoop大数据框架学习

hadoop大数据框架学习

  • 博客(34)
  • 收藏
  • 关注

原创 大数据相关技术及应用实践

大数据可以抽象的分为大数据存储和大数据分析,这两者的关系是:大数据存储的目的是支撑大数据分析。存储技术大数据可以抽象的分为大数据存储和大数据分析,这两者的关系是:大数据存储的目的是支撑大数据分析。到目前为止,还是两种截然不同的计算机技术领域:大数据存储致力于研发可以扩展至PB甚至EB级别的数据存储平台;大数据分析关注在最短时间内处理大量不同类型的数据集。提到存储,有一个着名的摩尔定律相...

2019-06-12 21:59:51 1703

原创 大数据未来的路该怎么走?

大数据可以抽象的分为大数据存储和大数据分析,这两者的关系是:大数据存储的目的是支撑大数据分析。到目前为止,还是两种截然不同的计算机技术领域:大数据存储致力于研发可以扩展至PB甚至EB级别的数据存储平台;大数据分析关注在最短时间内处理大量不同类型的数据集。提到存储,有一个着名的摩尔定律相信大家都听过:18个月集成电路的复杂性就增加一倍。所以,存储器的成本大约每18-24个月就下降一半。成本的不断...

2019-06-12 21:59:49 685

原创 大数据处理的四大步骤

大数据时代处理数据理念的三大转变:要全体不要抽样,要效率不要绝对精确,要相关不要因果。大数据时代处理数据理念的三大转变:要全体不要抽样,要效率不要绝对精确,要相关不要因果。大数据处理的流程  具体的大数据处理方法确实有很多,但是根据笔者长时间的实践,总结了一个普遍适用的大数据处理流程,并且这个流程应该能够对大家理顺大数据的处理有所帮助。整个处理流程可以概括为四步,分别是采集、导入...

2019-06-12 21:59:41 28208

原创 大数据五大技术或将改变存储发展

数据存储领域正在发生着剧烈的变化,而且这种变化将是长期的一种趋势。而随着数据存储领域的变化,必然将催生中一些新的技术的产生,必将改变存储领域的发展,那么今天我们就来看一下未来有哪些存储技术会改变未来呢?数据存储领域正在发生着剧烈的变化,而且这种变化将是长期的一种趋势。而随着数据存储领域的变化,必然将催生中一些新的技术的产生,必将改变存储领域的发展,那么今天我们就来看一下未来有哪些存储技术...

2019-06-12 19:40:00 623

原创 大数据Hadoop环境网络特性

Hadoop集群中的各节点通过网络连接起来,而且MapReduce中的以下过程会在网络中传输数据。​大数据Hadoop环境网络特性Hadoop集群中的各节点通过网络连接起来,而且MapReduce中的以下过程会在网络中传输数据。(1)写数据。当向HDFS写入初始数据或者大块数据时,会发生数据写入过程。写入的数据块需要备份到其他节点,需要在网络中传输这些数据。(2)作业执...

2019-06-12 19:39:58 335

原创 大数据零基础入门学习

随着大数据的爆红,数据分析师这个职位也得到了越来越多的关注,千千万万懂些大数据技术的少年们都渴望成为高大上的“大数据科学家”,可是,你们真的准备好了吗? 1、最早的数据分析可能就报表  目前很多数据分析后的结果,展示的形式很多,有各种图形以及报表,最早的应该是简单的几条数据,然后搞个web页面,展示一下数据。早期可能数据量也不大,随便搞个数据库,然后SQL搞一下,数据报表就出...

2019-06-12 19:30:00 755

原创 实施大数据过程中遇到的13个问题

随着互联网技术的发展,近两年,大数据和云计算越来被重视,各大网络巨头更是纷纷投资大数据和云计算领域,那么关于大数据的一些知识就有必要做一些普及,下面是做大数据过程中遇到的13个问题和解决办法。1、最早的数据分析可能就报表目前很多数据分析后的结果,展示的形式很多,有各种图形以及报表,最早的应该是简单的几条数据,然后搞个web页面,展示一下数据。早期可能数据量也不大,随便搞个数据库,然后SQL...

2019-06-12 19:29:57 1110

原创 玩转大数据:需要知晓的12种工具

无论是在构建大数据的应用程序,还是仅仅只想从开发的移动应用中得到一点点启发,程序员现在比以往任何时候都需要大数据分析工具。这绝对是一个好东西,所以很多公司从程序员的需求和技能出发,构建了一些数据分析工具。在过去的几年里,Derrick看到了很多初创公司,各类项目以及开发工具等等,它们都旨在为程序员带来先进的数据分析能力。有时候,程序员们会使用简单的脚本开发出强大的显示效果,或者在开发过程中使...

2019-06-12 19:29:55 279

原创 如何实现大数据的深发展?

大数据需要开放式创新,从数据的开放、共享和交易,到价值提取能力的开放,再到基础处理和分析平台的开放,让数据如同血液在数据社会的躯体中长流,滋润数据经济,让更多的长尾企业和数据思维创新者产生多姿多彩的化学作用,才能创造大数据的黄金时代。围墙里的大数据注定成为死数据,大数据需要开放式创新,从数据的开放、共享和交易,到价值提取能力的开放,再到基础处理和分析平台的开放,让数据如同血液在数据社会的躯体中...

2019-06-11 21:59:53 901

原创 Hadoop是大数据应用落地难的罪魁祸首?

为什么大数据应用落地难?很大一部分原因在于Hadoop,用户对于开源总有兴趣亲自尝试一下。但无论Map Reduce,还是YARN都不是那么简单易用,数据建模就像一座山,横亘在用户的前面,让应用不容易落地。大数据落地难,业内对此广有共识。“我们在全球有7900家用户,在亚太有1000家以上的用户,在中国有150家用户,这些用户的应用都是落地的。” Splunk 中国区销售总监侯海龙说。...

2019-06-11 21:59:51 647

原创 大数据特征与发展历程

大数据(big data)是这样的数据集合:数据量增长速度极快,用常规的数据工具无法在一定的时间内进行采集、处理、存储和计算的数据集合。作者认为具有以下五大特征(4V+1O)的数据才称之为大数据,即:数据量大(Volume):第一个特征是数据量大,包括采集、存储和计算的量都非常大。大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T)。类型繁多(Vari...

2019-06-11 21:59:49 7858

原创 纯理论的技术讨论都是耍流氓,ssh免密登录,动手搭建Hadoop(1)

最近准备搭建hadoop集群,把想整个经过记录一下。首先安装了4台虚拟机作为服务器。操作系统是CentOS 6.5. 今天先解决,ssh免密访问。由于hadoop要设置一个master namenode一个secondary namenode,还有两个datanode。他们之间如果需要访问,特别是namenode需要访问datanode需要通过ssh,如果每次都要输入密码是有点麻烦的所以先把免密访...

2019-06-11 21:00:09 167

原创 BAT大神说实践需要从基础开始,安装jdk,动手搭建Hadoop(2)

接着上期免密ssh安装之后,我们把jdk安装起来。jdk可以从oracle官网上面直接下载。由于我这里用的是vmware生成的四个节点,所以我下载jdk版本以后通过xftp上传到各个centOS服务器上面。然后再解压安装。jdk下载在下载之前记得选择授权https://www.oracle.com/technetwork/java/javase/downloads/j...

2019-06-11 20:59:53 143

原创 hadoop伪分布式安装,实际操作可以收藏,动手搭建Hadoop(3)

01 ssh免密安装02 jdk安装回顾之前,我们已经把ssh面密钥和jdk都给安装上去了,接下来做hadoop的伪分布式的安装。什么是伪分布式安装呢?众所周知,hadoop的集群有namenode(主备)和datanode组成的。实际应该让这些节点都分布在不同的服务器,伪分布式就是将这些节点都放在一台服务器上面,这个是用来做测试。后面我们会介绍全分布式的安装,学习就要循序渐进。准备...

2019-06-11 20:59:52 183

原创 hadoop全分布式是个什么鬼?!动手搭建Hadoop(4)

01 ssh免密安装02 jdk安装03 hadoop伪分布式安装前面把伪分布式安装已经做了,今天来讲全分布式的安装。之前是把所有的namenode节点和datanode节点都放到了一台服务器上。今天我们需要把每个节点分开放置。准备node01(192.168.146.101):主namenode节点node02(192.168.146.102):从namenode节点,...

2019-06-11 20:59:48 212

原创 大数据与数据挖掘的相对绝对关系

数据是有待理解的信息,数据挖掘则是从巨量数据中提取出信息。无论是安全、商业、医学还是政治领域都在面临着大数据的考验,而风起云涌的大数据问题需要精细的数据挖掘为我们提供有用的信息。泄密者爱德华·斯诺登(Edward Snowden)还在寻求容身之所的时候,美国国家安全局(NSA)全方位收集电话和电子邮件记录之事经过他的披露,已经引发了不安和愤怒。奥巴马当局声称,监听数据带来了安全,然而左翼和...

2019-06-10 22:00:00 1873

原创 大数据仅仅是概念,还是真的有实用性?

大数据是一种进步,但是我们完全没有必要神话,更没有必要妖魔化。大数据是一种概念,也只是我们认知世界发展到目前阶段顺理成章的产物。从去年开始,不管是互联网行业还是其他行业,大数据一词开始频繁出现。“概念”性质的东西在中国的互联网圈子总是可以快速传播,这里面有很多原因,其中就有整体氛围所致:大多数互联网的创业者都是希望通过前瞻性的创新来改变世界,受到资本追捧,最终套现。在这个过程中,概念飞快的...

2019-06-10 21:59:59 2254

原创 大数据架构师:hadoop、Storm该选哪一个?

首先整体认识:Hadoop是磁盘级计算,进行计算时,数据在磁盘上,需要读写磁盘;Storm是内存级计算,数据直接通过网络导入内存。读写内存比读写磁盘速度快n个数量级。根据Harvard CS61课件,磁盘访问延迟约为内存访问延迟的75000倍。所以Storm更快。注释:1. 延时 , 指数据从产生到运算产生结果的时间,“快”应该主要指这个。2. 吞吐, 指系统单位时间...

2019-06-10 21:59:48 3148 5

原创 大数据、物联网、机器人是怎样联系在一起的?

在未来网络的时代,“物联网”、“大数据”“云计算”和“机器人”都已经是大势所趋。但这些趋势是相互联系在一起的,联系成一个大趋势,就像“万有理论”,在这个链条里,每一环都会对下一环产生影响,如此产生积极的循环。在未来网络的时代,“物联网”、“大数据 云计算”和“机器人”都已经是大势所趋。但这些趋势是相互联系在一起的,联系成一个大趋势,就像“万有理论”,在这个链条里,每一环都会对下一环产生影响...

2019-06-10 21:59:47 1492

原创 Hadoop:如何直面大数据的挑战

Apache Hadoop通过简化数据密集、高度并行的分布式应用的实现来应大数据带来的挑战。全球诸多企业、大学和其他组织都在使用Hadoop,它允许把分析任务划分为工作片段,并分派到上千台计算机上,提供快速的分析时间和海量数据的分布式存储。Hadoop为存储海量数据提供了一种经济的方式。它提供了一种可扩展且可靠的机制,用一个商用硬件集群来处理大量数据。而且它提供新颖的和更先进的分析技术,允许对不同...

2019-06-10 21:59:45 369

原创 大数据未来发展预测:Hadoop将无法独自处理大数据

在大数据空间最显著的挑战之一,应该是与微乎其微的人才库相关。“拥有这方面经验的人才数量并不多。”这并不意味着软件工程师需要去上学并获得博士学位。技术工人并不需要一个博士学位来理解大数据。然而,他们确实需要掌握知识和专业技能,大数据的世界正在稳步发展。壮大随着数据数量和种类的不断膨胀,读者都想知道接下来会发生什么。Sriram Mohan博士是罗斯豪曼理工学院计算机科学和软件工程的副教授。同时他...

2019-06-09 21:59:55 167

原创 大数据的核心价值是什么?

大数据最核心的价值就是在于对于海量数据进行存储和分析。相比起现有的其他技术而言,大数据的“廉价、迅速、优化”这三方面的综合成本是最优的。当这项技术在自己用的时候(如google等),自己将会非常收益,因为成本会降低;当这项技术作用在客户时候,客户同时也会受益。能够让客户和自己同时受益的技术,就是最有商业价值的。所以,大数据并不只是喊口号的空话,而是像其他的新兴技术一样,商业化是需要一个过程,就...

2019-06-09 21:59:51 2981

原创 Hadoop与大数据之间的关系和区别

走进大数据,一种新兴的数据挖掘技术,它正在让大数据处理和分析变得更便宜更快速。大数据技术一旦进入超级计算时代,很快便可应用于普通企业,在遍地开花的过程中,它将改变许多行业业务经营的模式。在计算机世界里,大数据被定义为一种使用非传统的数据过滤工具,对大量有序或无序数据集合进行的挖掘过程,它包括但不仅限于分布式计算(Hadoop)。大数据已经站在了数据存储宣传的风口浪尖,也存在着大量不确定因素...

2019-06-09 21:59:49 1288

原创 oracle大数据处理方式

关于数据库大数据处理的方案,有很多不错的Blog,提出很多的解决方案,所以呢自己也想整理一下关于这方面的内容关于数据库大数据处理的方案,有很多不错的Blog,提出很多的解决方案,所以呢自己也想整理一下关于这方面的内容,如果只是把别人整理的总结Copy到这就没什么意思了,甚至在面试的时候会经常被问到怎么样来处理大数据和高并发的解决方案,再说了网上也有很多重复的内容,把一篇文章Copy来Copy去...

2019-06-09 21:59:47 567

原创 大数据框架HPCC 和 Hadoop 的详细区别比较

通常使用基于Intel或AMD CPU的刀片服务器来构建集群系统,为了降低成本可以使用已经停止销售的过时硬件。节点有本地内存和硬盘,通过高速交换机相连(通常为千兆交换机)硬件环境通常使用基于Intel或AMD CPU的刀片服务器来构建集群系统,为了降低成本可以使用已经停止销售的过时硬件。节点有本地内存和硬盘,通过高速交换机相连(通常为千兆交换机),如果 集群节点很多,也可以使用分层交换。集...

2019-06-08 22:00:01 331

原创 大数据规划所需的五个步骤和三种能力

大数据规划有五个步骤,首先从业务驱动的角度,相关部门选择要解决和产生的业务场景。针对需求处理和采取整合这些场景需要的大数据。当然选择的重点是怎么使信息快速产生价值。大数据分析的未来将朝着更为普及化、更为实时的数据分析去迈进,也就是说“针对正确的人,在正确的时间,获得正确的信息”,从这个意义来说,它已经超越了技术本身,是更为接近业务层面的实时分析。对于一个成功企业来说,数据整合能力、分析能力...

2019-06-08 21:59:52 2872 1

原创 大数据发展必备三个条件

大数据概念的横空出世,有赖于短短几年出现的海量数据。据统计,互联网上的数据每两年翻一番,而目前世界上90%以上的数据大数据概念的横空出世,有赖于短短几年出现的海量数据。据统计,互联网上的数据每两年翻一番,而目前世界上90%以上的数据都是最近几年才产生的。当然,海量数据仅仅是“大数据”概念的一部分,只有具备4个“V”的特征,大数据的定义才算完整,而价值恰恰是决定大数据未来走向的关键。...

2019-06-07 21:08:33 1943

原创 大数据的决策、开发与应用

大数据的应用需求,是新的大数据技术开发的源泉。在不久的将来,也许很多原来单纯依靠人类自身判断力的领域应用,最终都将被计算机系统的数据分析和数据挖掘功能,所普遍改变甚至取代。在大数据时代下,随着大数据价值的凸显,大数据的应用也逐渐深入,各行各业都离不开大数据,大数据的决策、应用与开发,对社会的发展产生深刻影响。大数据决策:成为一种新的决策方式依据大数据进行决策,从数据中获...

2019-06-06 21:05:08 1633

原创 大数据、云计算将催生IT产业大革命

据国外媒体报道,投资公司CanaccordGenuity分析师理查德·戴维斯(RichardDavis)表示,由云计算技术催生的信息科技产业的结构性变化将为系统和架构软件厂商未来数年的“大革命”奠定基础。戴维斯在周一发表的一份报告中说,这场革命将创造长期的投资机遇,可能催生1或2家像Salesforce.com和Workday这种规模的公司。报告列出了可能对投资者有影响的16家尚未上市的...

2019-06-06 21:04:20 118

原创 毕业季面试常见10个问题及回答技巧

问题1:你最大的优点是什么?你在回答这个问题的时候,需要注意三点:第一,你阐述的优点必须与应聘的职位相关,与职位无关的优点,即使很值得炫耀,也必须舍弃;第二,不要撒谎,你所阐述的优点必须是真实存在的;第三,你需要为所阐述的优点举例证明,没有例证,怎么能让人相信你说的是真的?问题2:你最大的缺点是什么?这是一个令求职者感到非常头痛的问题。因为你的回答只要是对所应聘的工作有严重影响的,就很...

2019-06-01 11:32:41 4247

原创 作为一名IT工程师该如何提前预防职业病

IT职业病是对电脑辐射及长时间久坐及加班造成的互联网行业病的总称。包括从事电脑工作的程序员、设计师、编辑等办公室人员,由于长时间久坐,饮食不规律,生活、工作压力大,熬夜及缺乏运动引发一堆亚健康问题。鼠标手、屏幕脸、颈椎病、干眼症等IT职业病也越来越常见。预防职业病许多上班族等IT从业者,日常生活中存在着诸多不良的生活、工作习惯,且大多对此不以为然。像IT这类智力密集型产业,需要依靠从...

2019-06-01 11:32:39 722

原创 为什么现在的年轻人更多的是选择进入IT行业?

IT行业作为21世纪的一种兴新领域,在短短的十几年内,已经成为我国重要的经济增长点,政策更加是大力支持,现在我国正在深入推进“互联网+”、“大众创业万众创新”、人工智能等战略意义,更是特意强调IT行业对经济发展的重要作用。由此可见,无论是从大的方面说,还是小的方面说,IT行业未来的发展都不会错,对于高科技人才的需求也会不断增加!这也是IT行业不断受到追捧的原因,那么选择IT职业究竟还有什么优势...

2019-06-01 11:32:37 272

原创 互联网IT行业岗位分析,程序员、CTO……都是什么?

IT行业有多个方向,产品、运营、技术……而技术方向也有着许多的岗位,对于零基础想要学习IT技术的人来说,可能不是很了解这些。贵阳达内就给大家介绍一下IT行业技术方向的一些主要岗位,其中也能看出在IT行业的职业晋升方向。1、程序员程序员,大伙常自嘲为码农。职责是把需求或产品实现为用户可用的软件产品。因为经验较少,一般需要求助别人,或与别人一起完(ban)成(zhuan)一个任务。此阶...

2019-05-31 22:11:58 1037

原创 20岁入门学习编程技术,如何选择适合自己编程语言

没文化真可怕,找工作都是无门,21岁是个分水岭,没有技术,又赶上脱离家庭自立,20岁多岁学什么技术好呢,达内发现很多年轻人希望通过学习一门技术增加自身的工作能力,专研一门技术,学好学精出来在社会上也是有非常不错的薪资待遇。在面对五花八门的学科,觉得这个技术好,那个技术也好,但是对各个技术行业又都不了解,所以也不知道怎样分析学习那个技术好,20岁多岁学什么技术好?人工智能想要做学习...

2019-05-31 22:11:53 347

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除