自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

大数据培训中心

最前沿的培训大纲和最新的技术分析是我们一直专注的内容

  • 博客(40)
  • 收藏
  • 关注

原创 大数据领域的12大工具,试试看哪个更好用

大数据工具让企业能够从数据仓库获得洞察力,从而在数据驱动的业务环境中提供重要的竞争优势。为了满足旺盛需求,大数据工具在迅速遍地开花。在大数据这一概念和业务战略出现以来的十年间,市面上出现了成千上万执行各种任务和流程的工具,它们都承诺可为你节省时间和资金,发掘业务洞察力从而实现创收。显然,一个不断增长的市场呈现在大数据分析工具的面前。其中许多工具一开始就像最初的大数据软件框架Hadoop那样是...

2019-05-20 12:55:31 642

原创 OpenStack如何在大数据用例中扮演关键角色

OpenStack 控制计算、存储和网络资源池。本文主要关注 OpenStack 如何在大数据用例中扮演关键角色。OpenStack 上的大数据现在,数据随处生成,数据量呈指数增长。来自 Web 服务器、应用程序服务器、数据库服务器的数据以用户信息、日志文件和系统状态信息的形式提供。大量的数据也由物联网设备产生,如传感器、车辆、工业设备等。从科学模拟模型生成的数据也是大数据的来源之一。使用传...

2019-05-20 12:54:02 385

原创 大数据需要哪些技术?

大数据是对海量数据进行存储、计算、统计、分析处理的一系列处理手段,处理的数据量通常是TB级,甚至是PB或EB级的数据,这是传统数据处理手段所无法完成的,其涉及的技术有分布式计算、高并发处理、高可用处理、集群、实时性计算等,汇集了当前IT领域热门流行的IT技术。想要学好大数据需掌握以下技术:1. Java编程技术Java编程技术是大数据学习的基础,Java是一种强类型语言,拥有极高的跨平...

2019-05-20 12:53:09 1016

原创 如何成为云计算大数据Spark高手

Spark是发源于美国加州大学伯克利分校AMPLab的集群计算平台,它立足于内存计算,性能超过Hadoop百倍,从多迭代批量处理出发,兼收并蓄数据仓库、流处理和图计算等多种计算范式,是罕见的全能选手。Spark采用一个统一的技术堆栈解决了云计算大数据的如流处理、图技术、机器学习、NoSQL查询等方面的所有核心问题,具有完善的生态系统,这直接奠定了其一统云计算大数据领域的霸主地位。伴随Spark...

2019-05-19 19:30:18 359

原创 Hadoop之后:实时数据的未来

还没有真正部署Hadoop的企业可能想要再等一等。而随着Apache Spark等其他技术(Storm、Kafka等)的出现,我们似乎与Hadoop的批处理渐行渐远,逐渐转向实时数据的未来。批处理不是重点Cloudera的Doug Cutting是一个非常聪明的人,也是开源开发人员,Hadoop、Lucene等大数据工具的开发都有他的功劳。虽然Cutting承认实时流媒...

2019-05-19 19:29:08 706

原创 基于Kafka与Spark的实时大数据质量监控平台

微软的ASG (应用与服务集团)包含Bing,、Office,、Skype。每天产生多达5 PB以上数据,如何构建一个高扩展性的data audit服务来保证这样量级的数据完整性和实时性非常具有挑战性。本文将介绍微软ASG大数据团队如何利用Kafka、Spark以及Elasticsearch来解决这个问题。案例简介本案例介绍了微软大数据平台团队设计和部署的基于开源技术(Kafka...

2019-05-19 19:28:11 1054

原创 Hadoop环境中管理大数据存储八大技巧

现如今,随着IT互联网信息技术的飞速发展和进步。目前大数据行业也越来越火爆,从而导致国内大数据人才也极度缺乏,下面介绍一下关于Hadoop环境中管理大数据存储技巧。  1、分布式存储  传统化集中式存储存在已有一段时间。但大数据并非真的适合集中式存储架构。Hadoop设计用于将计算更接近数据节点,同时采用了HDFS文件系统的大规模横向扩展功能。  虽然,通常解决Hadoop管理自身数据...

2019-05-18 21:58:15 440

原创 大数据系列之并行计算引擎Spark介绍

Spark:Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此S...

2019-05-18 21:57:38 563

原创 java在处理大数据的时候一些小技巧

例如,我们要将 数据库 (不论是什么数据库)的数据导出到一个文件,一般是Excel或文本格式的CSV;对于Excel来讲,对于POI和JXL的接口,你很多时候没有办法去控制内存什么时候向磁盘写入,很恶心,而且这些API在内存构造的对象大小将比数据原有的大小要大很多倍数,所以你不得不去拆分Excel,还好,POI开始意识到这个问题,在3.8.4的版本后,开始提供cache的行数,提供了SXSSFWo...

2019-05-17 15:18:31 177

原创 大数据时代最受欢迎的软件之BI分析工具

在大数据平台和管理系统激增的情况下,数据集成为什么能够成为企业高优先级的选择。在一些企业,数据团队在技术投资回报率方面承受着越来越大的压力,这些因素使得许多企业选择数据集成是非常必要的。你可能会认为大数据时代到处充斥着高级的数据分析工具或方法,但在2016年的调查显示,传统的商业智能分析和数据仓库仍是大多数企业优先考虑的方法,基本的BI分析工具仍然是一个非常热门的选择。27.5%的受访者表示...

2019-05-17 15:17:29 1070

原创 你的大数据项目使用的工具正确吗?

KDNuggets网站对此观点进行了年度调查,来分析数据科学家在用哪些类型的工具,并提供了调查的匿名原始数据。通过主成分析(PCA)法进行降维分析对所有的工具同时进行关系分析,常规来说,PCA通过对大样本数据统计性质(eg, 协方差)的分析,试图用主要特征来解释关系。分析结果:当前分析的目标:通过一些主成分来分析95种工具之间的关系。最终决定以PCA的特征值来决定主成分的数目,这里...

2019-05-17 15:15:28 208

原创 顶级Hadoop发行版的四个对比因素

通过检查顶级的Hadoop发行版的关键特征,你可以决定哪些订阅适合你的组织。虽然软件组件构成的Hadoop生态系统堆栈是开源技术,但是采用付费订阅使用其供应商的商业Hadoop平台会为企业带来许多好处。例如,订阅可以提供技术支持和培训,以及访问那些不提供给开源社区的企业功能。而供应商的Hadoop的企业版提供了Hadoop生态系统协议堆栈的核心部件,主要区别是这些厂商提供超越公开访问的功能。...

2019-05-17 15:13:17 371

原创 走出大数据行业的两大误区

先从概念上来说,大数据是什么?其实数据处理从人类诞生时期就有了,古人结绳记事就是基本的统计,统计自己吃了几顿饭打了几次猎等等;再往近说,皇帝每晚翻嫔妃的牌子也是数据处理,在翻牌子之前,要从一大堆牌子里分析“方便”、“热度高”、“新鲜度”等指标;更近的说,数据仓库早在大数据这个词出现前就已经成熟发展了好几十年了。所以说,大数据并不新鲜,只是某些技术如Hadoop、MR、Storm、Spark发展...

2019-05-17 15:11:58 260

原创 史上最全的“大数据”学习资源(上)

当今“大数据”一词的重点其实已经不仅在于数据规模的定义,它更代表着信息技术发展进入了一个新的时代,代表着爆炸性的数据信息给传统的计算技术和信息技术带来的技术挑战和困难当前,整个互联网正在从IT时代向DT时代演进,大数据技术也正在助力企业和公众敲开DT世界大门。当今“大数据”一词的重点其实已经不仅在于数据规模的定义,它更代表着信息技术发展进入了一个新的时代,代表着爆炸性的数据信息给传统的计算技术和...

2019-05-17 15:10:29 535

原创 大数据入门的四个必备常识

大数据工程师一个很重要的工作,就是通过分析数据来找出过去事件的特征。比如,腾讯的数据团队正在搭建一个数据仓库,把公司所有网络平台上数量庞大、不规整的数据信息进行梳理,总结出可供查询的特征,来支持公司各类业务对数据的需求,包括广告投放、游戏开发、社交网络等。三、如何区分三个大数据热门职业——数据科学家、数据工程师、数据分析师随着大数据的愈演愈热,相关大数据的职业也成为热门,给人才发展带...

2019-05-17 15:08:39 479

原创 Hadoop新手学习指导之入门需知

首先我们要了解 hadoop 是什么? Hadoop 能够做什么? Hadoop 的使用场景是什么? Hadoop 和大数据、云计算的关系是什么?如何使用 hadoop ?零基础学习 hadoop, 没有想象的那么困难,也没有想象的那么容易。从一开始什么都不懂,到能够搭建集群,开发。整个过程,只要有 Linux 基础,虚拟机化和 java 基础,其实 hadoop 并 没有太大的困难。 下面整...

2019-05-17 15:07:25 243

原创 10分钟读懂到底什么是大数据?

近几年,大数据概念被炒的也来越厉害,这对于一个新技术领域诞生来说,是个必经的过程。两年前,《纽约时报》撰文“欢迎大数据的到来”,两年后,大数据的商业价值已经显现。在各个行业,我们都已能看到大数据的身影。Gartner对于“大数据”(Big Data),给出的定义是:“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。网友关于大数据生态这一话题...

2019-05-15 21:07:07 432

原创 ODP项目能否成为Hadoop助推器?

Hadoop作为大数据时代的“标配”技术,不仅受到了终端用户的广泛关注,IT提供商与服务商也纷纷希望借助这一开源技术获得更多利益。就如同当年的Linux一样,如今市场中存在着许多商用Hadoop发行版,这些平台依托于Apache Hadoop的开源代码,通过打包整合等方式为企业级用户提供大数据解决方案。然而,平台的兼容性必将成为横亘在各个商用发行版面前的一道坎,而通过一套标准来帮助用户解决这一难...

2019-05-15 21:05:12 386

原创 Hadoop可能已经达到预期的成熟度

五年前,Hadoop用可以解决所有大数据难题的身份杀入主流市场。如今尘埃已经落定,现在是时候对Hadoop展开更切合实际的评估了。我们现在正处于21世纪第二个十年的正中间。当大数据潮流从五年前开始兴起时,Hadoop将引领未来这一看法得到了普遍认可。Hadoop市场从那时开始的增长显示,这一共识并没有被削弱。持续不懈的宣传至少为Hadoop的部署与创新打下了良好的基础。如果所有人都非常清楚H...

2019-05-15 21:04:08 218

原创 我的Hadoop成长之路

总结这几年关于Hadoop的成长之路,运气一直很好,在恰当的时候做了对的事情,让我成积累了技术,也积累了许多技术之外的宝贵经验。Hadoop启蒙还在实验室时,老师就建议看google关于大数据的三篇论文,啃了好长时间还是没完全理解。也动手搭建了Hadoop集群,运行了wordcount,带着“Hadoop会火“的指示离开了实验室。Hadoop入门2011年初我加入了一个互联...

2019-05-15 21:02:54 153

原创 大数据处理应遵循的四大原则

信息革命将人类带入一个革命性的“大数据时代”,人们通过电脑网络,利用数据分析、数据集成、数据设计、数据模型、数据决策和数据虚拟化等手段,针对具体的认知对象,对反映其数量、性质、结构、功能、价值、前景等方面的数据,进行全面的收集、整理、分析、综观和萃取,然后作为决策和实践的根据。由此,使人类的认识变得更精确系统、更全面广泛、更快速有效。然而面对各种数据源收集来的海量数据,究竟如何对其进行归类、计算、...

2019-05-15 21:01:51 10505

原创 流式大数据处理的三种框架:Storm,Spark和Samza

本文将对三种Apache框架分别进行简单介绍,然后尝试快速、高度概述其异同。Apache Storm在Storm中,先要设计一个用于实时计算的图状结构,我们称之为拓扑(topology)。这个拓扑将会被提交给集群,由集群中的主控节点(master node)分发代码,将任务分配给工作节点(worker node)执行。一个拓扑中包括spout和bolt两种角色,其中spout发送消息,负责...

2019-05-15 20:58:41 395

原创 全网最全最新的大数据系统学习路径

大数据是对海量数据进行存储、计算、统计、大数据的一系列处理手段,处理的数据量通常是TB级,甚至是PB或EB级的数据,这是传统大数据手段所无法完成的,其涉及的技术有分布式计算、高并发处理、高可用处理、集群、实时性计算等,汇集了当前IT领域热门流行的IT技术。大数据,需要学习以下这些知识点:想学习好大数据可以关注公众号程序员大牛 有视频资源分享一起学习1、Java编程技术Ja...

2019-05-12 12:20:23 322

原创 如何进行有效的大数据处理、分析?

许多企业投下数百万美元用于大数据,并雇用数据分析家,但却感到很受挫。无可否认,他们现在得到了更多、更好的数据。他们的分析师和分析法也是一流的。但经理人对业务的想法和争论,似乎与过去的类型仍一样,只是他们使用的数据与分析法都比以前好得多。最终的决定可能是更加由数据驱动(data-driven),但组织文化给人的感觉仍然相同。正如一位CIO最近告诉我的,“我们现在可以做实时的分析,那是我在五年前根本无...

2019-05-12 12:18:34 436

原创 大数据下的七种商业模式

移动互联网时代,大数据爆发后带来大量流量,运营商将经营重心从话务量转向流量。然而一方面面临着数据流的附加值被互联网公司赚走,沦为管道化的尴尬;另一方面运营商无差异的“管道”运营正在导致运营商间的价格竞争,降低盈利能力;而为了促进用户使用数据业务而推出的一系列包含较高流量的套餐,再加上QQ等应用长期“空挂”在线, 低效流量占据“管道”的大量资源,出现了客户感知低、收入流量增长不平衡的局面。...

2019-05-12 12:17:41 2511

原创 Google大数据技术架构探秘

Google是大数据时代的奠基者,其大数据技术架构一直是互联网公司争相学习和 研究的重点,也是行业大数据技术架构的标杆和示范。  1、谷歌的数据中心  谷歌已经建立了世界上最快、最强大、最高质量的数据中心,它的8个主要数据中心都远离其位于加州山景城的总部,分别位于美国南卡罗来纳州的伯克利郡,爱荷华州的康瑟尔布拉夫斯,乔治亚州的道格拉斯郡,俄克拉荷马州的梅斯郡,北卡罗来纳州的勒努瓦,俄勒冈...

2019-05-12 12:16:21 529

原创 如何应对互联网大数据时代的挑战

“21世纪是一个复杂而不可预知的世纪,我们那些照目前来看已经固定的思维习惯和价值观正接受新的挑战。”,这是当代著名动画导演、动画师及漫画家宫崎骏先生对快速发展的互联网时代的体悟!互联网时代的到来使得各类基于网络的服务应用发展无论从应用种类、用户数量、带宽数量来说均呈几何形态飞速递增。因此,对于各类应用运营服务者来说其关注的及被要求的,已不是原有简单的运营业务是否正常如此简单的问题,其需要...

2019-05-12 12:15:06 931

原创 大数据未来发展方向的九大真理

总会时不时沉浸在对大数据原则的思索当中,这里讨论的并不是Hadoop与关系数据库或者Mahout与Weka的对抗,而是更具根源性的智慧——将数据作为“新时代货币”的思维方式。不过也许将数据描述成“新时代的石油”更加贴近,或者,我们还需要一种新的比喻更全面地诠释数据的价值与内涵。比喻本身既非事实也难以证明,但它们确实能够创造出指引我们找到真理的话题。比喻让复杂的概念变得更易理解,正如本文中所引用...

2019-05-12 12:14:14 371

原创 大数据落地,你需要这三类人才

若真要谈大数据时代的落地,那么不能不谈人才,不能不谈具体的应用。以往大数据总是在过分突出消费者预判和趋势预测方面,不是不可以,但大数据的应用应该延展但更广泛和多样的方面,以更多维的角度去应用它,否则就太钻牛角尖了。在笔者看来,如何让大数据落地,那么三类人才必不可少!应用—数据产品设计,多维立体的交融 :大数据未来的抓取和应用,笔者觉得除了趋势预测外,更多应该投入到产品的研发、销...

2019-05-12 12:12:48 277

原创 7个大数据流言,避免错误的Hadoop和云分析决策

Hadoop是由英雄们创造的开源传奇,然而传奇经常还伴随着一些流言——这些流言可能会导致IT高管们带着乐观的心态去制定策略。数据体积和数据使用在以惊人的速度增长着,这一点从分析师的分析中不难获得——IDC今年在数据存储上的增长速度将达到53.4%,AT&T声称无线数据的流量在过去的5年内增长200倍,如果你着眼自己通信渠道的话,将毫无疑问的发现互联网内容、电子邮件、应用通知、社交...

2019-05-12 12:11:53 193

原创 大数据急需攻克的几大世界性难题

世界人民的健康记录:医学领域最急需的资源,人脑图谱:了解身体的各个部分如何运作,统筹世界范围内的铀原料供应:追踪武器化活动与能源供给等这些人们最关注的世界性难题,IBM、谷歌等巨头级企业已经开始对这类高难度挑战发起冲击,这很令人期待。尽管计算性能、存储容量以及分析技术一直在不断进步,某些现实挑战对于大数据而言仍然过于庞大以至于无法应对。在今天的文章中,我们将探讨五个此类难题 ——看看如何...

2019-05-12 12:10:27 384

原创 大数据需要学什么?

大数据需要学习什么?很多人问过我这个问题。每一次回答完都觉得自己讲得太片面了,总是没有一个合适的契机去好好总结这些内容,直到开始写这篇东西。大数据是近五年兴起的行业,发展迅速,很多技术经过这些年的迭代也变得比较成熟了,同时新的东西也不断涌现,想要保持自己竞争力的唯一办法就是不断学习。思维导图下面的是我整理的一张思维导图,内容分成几大块,包括了分布式计算与查询,分布式调度与管理,持久化存储,...

2019-05-12 12:09:13 374

原创 浅析Hadoop大数据用户的演变

我们看到一种“使用浪潮”一代又一代用户在相同的时间和类似的环境下使用Hadoop.每一个在数据处理时使用了Hadoop的用户,都面临着类似的挑战,为了让一切正常运转,要么被迫协同工作,要么干脆隔离。接下来我们就讨论这些客户,看他们彼此之间有何不同。第0代--火种 这是开头:在谷歌2000年中的研究论文的基础上,一些信徒奠定了廉价存储和计算能力的商品化基础。 D...

2019-05-10 21:59:53 235

原创 未来大数据时代,Hadoop会被Spark取代?

 由雅虎为工程师和数据科学家打造的Apache Hadoop曾因巨大的潜力而备受称赞,但如今它却受到了更快的产品的影响,而这些产品往往来自于它本身的生态系统——Spark就是其中之一。今年早些,H20.ai的创始人Sri Ambati对Datanami 曾说:“Spark将会使Hadoop处于绝地”。  但在过去的几年中,Hadoop似乎并没有出现过任何衰退的迹象。在2015年Atsca...

2019-05-10 21:59:50 938

原创 用于大数据处理的高性能计算的4个实现步骤

 在大数据领域,并非每家公司都需要高性能计算(HPC),但几乎所有使用大数据的企业都采用了Hadoop式分析计算。  HPC和Hadoop之间的区别很难区分,因为可以在高性能计算(HPC)设备上运行Hadoop分析作业,但反之亦然。 HPC和Hadoop分析都使用并行数据处理,但在Hadoop 和分析环境中,数据存储在硬件上,并分布在该硬件的多个节点上。在高性能计算(HPC)中,数据文件的大小要...

2019-05-10 21:59:47 590

原创 2分钟读懂Hadoop和Spark的异同

  谈到大数据,相信大家对Hadoop和Apache Spark这两个名字并不陌生。但我们往往对它们的理解只是提留在字面上,并没有对它们进行深入的思考,下面不妨跟我一块看下它们究竟有什么异同。   解决问题的层面不一样  首先,Hadoop和Apache Spark两者都是大数据框架,但是各自存在的目的不尽相同。Hadoop实质上更多是一个分布式数据基础设施: 它将巨大的数据集分...

2019-05-09 17:13:28 205

原创 最流行的五大数据模型工具

 当今的商业决策对基于天的数据依赖越来越强烈。然而,正确而连贯的数据流对商业用户做出快速、灵活的决策起到决定性的作用。建立正确的数据流和数据结构才能保证最好的结果。这个过程叫做数据建模。为了避免认为错误并且加快进度,我们需要使用专业的软件来帮助我们建立数据逻辑模型和物理模型、生成DDL,并且能够生成报告来描述这个模型,同时分享给其他伙伴。本文列出的工具都是从Data to Value公司咨询顾问处...

2019-05-09 17:02:02 14447

原创 大数据正在如何改变数据库格局?

 提及“数据库”,大多数人会想到拥有30多年风光历史的RDBMS。然而,这可能很快就会发生改变。  一大批新的竞争者都在争夺这一块重要市场,他们的方法是多种多样的,却都有一个共同点:极其专注于大数据。  推动新的数据迭代衍生品大部分都是基于底层大数据的3V特征:数量,速度和种类。  本质上来讲,今天的数据比以往任何时候都要传输更快,体积更大, 同时更加多样化。这是一个...

2019-05-09 16:59:54 243

原创 大数据5件能做和不能做的事

“大数据让我们变得更智能,而不是更聪明。”– Tim Leberecht  “大数据”一词早在20世纪40年代就出现了。全世界的公司都在竭尽全力地探索它的潜力。全球的科技巨头们都在大幅增加大数据技术的支出。这种趋势在主要行业的竞争者间还在加剧。  结果,根据调查公司IDC的预测, 大数据技术及服务直到2019年将以每年23%的速度增长.2019年在大数据上的支出将达到48...

2019-05-09 16:58:58 595

原创 大数据工程师开发教程这全都有

程序员必看大数据教程最全1024G学习资料免费赠送详解,大数据工作者可以施展拳脚的领域非常广泛,从国防部、互联网创业公司到金融机构,到处需要大数据项目来做创新驱动。数据分析或数据处理的岗位报酬也非常丰厚,在硅谷,入门级的数据科学家的收入已经是6位数了(美元)。其实Java工程师转型大数据还是非常建议的,不仅仅是前景和薪资等。技术层面来说,大数据使用的Hadoop(在分布式服务器集群上存储海量数...

2019-05-05 22:00:01 849

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除