自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

首席大数据架构师

机器学习和大数据

  • 博客(40)
  • 收藏
  • 关注

原创 大数据架构师必读:常见的七种Hadoop和Spark项目案例

如果您的Hadoop项目将有新的突破,那么它必定与下边介绍的七种常见项目很相像。有一句古老的格言是这样说的,如果你向某人提供你的全部支持和金融支持去做一些不同的和创新的事情,他们最终却会做别人正在做的事情。如比较火爆的Hadoop、Spark和Storm,每个人都认为他们正在做一些与这些新的大数据技术相关的事情,但它不需要很长的时间遇到相同的模式。具体的实施可能有所不同,但根据我的经验,它们是最常...

2019-05-19 21:02:03 186

原创 学大数据Hadoop你需要知道的一些事项

如何工作的?Hadoop是从Google文件系统发源而来,并且他是一个用Java开发的跨平台的应用.核心组件有: Hadoop Common,拥有其他模块所依赖的库和基础工具,Hadoop分布式文件系统 (HDFS), 负责存储, Hadoop YARN, 管理计算资源, 和Hadoop MapReduce, 负责处理的过程。Hadoop把文件拆成小块并且把他们分发给集群中的节点.然后,它...

2019-05-19 21:01:00 155

原创 超越Spark,大数据集群计算的生产实践

Spark拥有一个庞大的、不断增长的社区,还有在企业环境中不可或缺的生态系统。这些生态系统提供了不同生产环境案例所需的许多功能。一般来说,Spark用做的是机器学习算法、日志聚合分析或者商务智能相关的运算,因为它在许多领域都有广泛的应用,包括商务智能、数据仓库、推荐系统、反欺诈等。本文会介绍Spark核心社区开发的生态系统库,以及ML/MLlib及Spark Streaming的Spark库的具...

2019-05-19 20:59:47 478

原创 大数据热门框架Spark 和 Hadoop MapReduce 区别

一提到大数据处理,相信很多人第一时间想到的是 Hadoop MapReduce。没错,Hadoop MapReduce 为大数据处理技术奠定了基础。近年来,随着 Spark 的发展,越来越多的声音提到了 Spark。而Spark相比Hadoop MapReduce有哪些优势?Spark与Hadoop MapReduce在业界有两种说法 :一是 Spark 将代替 Hadoop MapRed...

2019-05-18 18:31:21 397

原创 Hadoop集群不均衡的解决方案

Hadoop的HDFS集群非常容易出现机器与机器之间磁盘利用率不平衡的情况,比如集群中添加新的数据节点,节点与节点之间磁盘大小不一样等等。一、引言:Hadoop的HDFS集群非常容易出现机器与机器之间磁盘利用率不平衡的情况,比如集群中添加新的数据节点,节点与节点之间磁盘大小不一样等等。当hdfs出现不平衡状况的时候,将引发很多问题,比如MR程序无法很好地利用本地计算的优势,机器之间无法达到更...

2019-05-18 18:29:50 1702

原创 给Hadoop初学者的一些建议

零基础学习hadoop,没有想象的那么困难,也没有想象的那么容易。从一开始什么都不懂,到能够搭建集群,开发。整个过程,只要有Linux基础,虚拟机化和java基础,其实hadoop并没有太大的困难。下面整理一下整个学习过程,给大家一个参考。首先我们要了解hadoop是什么?Hadoop能够做什么?Hadoop的使用场景是什么?Hadoop和大数据、云计算的关系是什么?如何使用hadoop?...

2019-05-18 18:27:54 400

原创 大数据框架对比:Hadoop、Storm、Samza、Spark和Flink

简介大数据是收集、整理、处理大容量数据集,并从中获得见解所需的非传统战略和技术的总称。虽然处理数据所需的计算能力或存储容量早已超过一台计算机的上限,但这种计算类型的普遍性、规模,以及价值在最近几年才经历了大规模扩展。在之前的文章中,我们曾经介绍过有关大数据系统的常规概念、处理过程,以及各种专门术语,本文将介绍大数据系统一个最基本的组件:处理框架。处理框架负责对系统中的数据进行计算,例如处理...

2019-05-18 18:26:52 436

原创 大数据改变世界,Spark改变大数据

Spark生态圈正在越来越深刻和广泛地影响和改造大数据应用行业。Spark本身也正以飞快的速度发展,在功能和性能方面稳步发展。下面就笔者比较感兴趣的两个领域,Spark应用实例和Spark自身发展,和大家分享一下自己的见闻。Spark应用实例腾讯广点通来自腾讯广点通的同学介绍了Spark Streaming在广点通上的应用。该分享重点介绍了Spark Streaming的几个特性...

2019-05-17 16:16:00 236

原创 看数据达人如何用一句话解读大数据

在信息化高速运转的时代,大数据给人们的行为都赋予了全新的价值与意义。大数据看起来很远,却与人们的日常生活息息相关;大数据看起来很近,却看不见,摸不到!脑洞大开!看数据达人如何用一句话解读大数据大数据到底是什么?快来看看小伙伴们对大数据的猜想到底有多深!洞察未来的大数据1、 世界之大,无数据不能言说!——软通动力马妍岩2、 洞悉本元,掌握先机,道法自成 - 软通动力,您...

2019-05-17 16:14:05 2539 1

原创 除Hadoop大数据技术外,还需了解的九大技术

adoop是大数据领域最流行的技术,但并非唯一。还有很多其他技术可用于解决大数据问题。除了Apache Hadoop外,另外9个大数据技术也是必须要了解的。除Hadoop外的9个大数据技术:1.Apache Flink2.Apache Samza3.Google Cloud Data Flow4.StreamSets5.Tensor Flow6.Apache NiFi...

2019-05-17 16:12:22 159

原创 为什么在大数据处理中Cassandra与Spark如此受欢迎?

随着现代云应用对正常运行时间及性能水平的要求逐步提高,已经有越来越多用户开始将注意力集中在Apache Cassandra数据库身上。那么,为什么要选择Apache Cassandra?这套分布式OLTP数据库能够带来高可用性与线性可扩展能力。在说起Cassandra的用途时,我们可以将其理解为一套理想的客户系统实现方案——其能够保证各类应用始终可用,包括产品目录、物联网、医疗系统以及移动...

2019-05-17 16:10:52 508

原创 大数据和Hadoop生态圈五

1.5 用Hadoop开发企业级应用为了满足大数据带来的新挑战,需要重新思考构建数据分析的程序的方式。传统的在数据库中存储数据,构建应用程序的方法,对于大数据处理将不再有效。主要因为:传统的应用程序基于事务处理型数据库,这种数据库将不再被Hadoop支持。随着存储在Hadoop上的数据量增大,实时访问仅仅能够访问到集群上的一部分数据。Hadoop的海量数据存储功能可以存储更多...

2019-05-15 21:21:53 170

原创 大数据和Hadoop生态圈四

1.4 Hadoop发行版本虽然Hadoop是开源的Apache(和现在GitHub)项目,但是在Hadoop行业,仍然出现了大量的新兴公司,以帮助人们更方便地使用Hadoop为目标。这些企业大多将Hadoop发行版进行打包、改进,以确保所有的软件一起工作,并提供技术支持。现在,Apache自己也在开发更多的工具来简化Hadoop的使用,并扩展其功能。这些工具是专有的,并有所差异。有的工...

2019-05-15 21:20:49 143

原创 大数据和Hadoop生态圈三

1.2 Hadoop生态圈架构师和开发人员通常会使用一种软件工具,用于其特定的用途软件开发。例如,他们可能会说,Tomcat是Apache Web服务器,MySQL是一个数据库工具。然而,当提到Hadoop的时候,事情变得有点复杂。Hadoop包括大量的工具,用来协同工作。因此,Hadoop可用于完成许多事情,以至于,人们常常根据他们使用的方式来定义它。对于一些人来说,Hadoo...

2019-05-15 21:19:54 324

原创 大数据和Hadoop生态圈二

Apache的Hadoop通过简化数据密集型、高度并行的分布式应用的实现,以此迎接大数据的挑战。世界各地的企业、大学和其它组织都在使用Hadoop,Hadoop把任务分成任务片,分布在数千台计算机上,从而进行快速分析,并分布式存储大量的数据。Hadoop利用大量廉价的计算机,提供了一个可扩展强,可靠性高的机制;并利用廉价的方式来存储大量数据。Hadoop还提供了新的和改进的分析技术,从而使大量结构...

2019-05-15 21:19:02 150

原创 大数据和Hadoop生态圈

你可能听别人说过,我们生活在“大数据”的环境中。技术驱动着当今世界的发展,计算能力飞速增长,电子设备越来越普遍,因特网越来越容易接入,与此同时,比以往任何时候都多的数据正在被传输和收集。你可能听别人说过,我们生活在“大数据”的环境中。技术驱动着当今世界的发展,计算能力飞速增长,电子设备越来越普遍,因特网越来越容易接入,与此同时,比以往任何时候都多的数据正在被传输和收集。企业正在以...

2019-05-15 21:18:07 210

原创 Spark点燃近实时大数据之火

在用户体验达不到所宣传效果之后,IT领域中必然会随之出现“新的热门事件”。目前的新热门事件涉及大数据和对海量分布式数据的快速精准分析。在目前的大数据领域中,Hadoop被作为存储和分配海量数据的软件,而MapReduce则被作为处理这些海量数据的引擎。两者整合在一起可以批处理一些对时效性没有过高要求的数据。那么对于近实时大数据分析应当怎么办呢?作为最先进的下一代开源技术Apache Spar...

2019-05-15 21:16:02 187

原创 Hadoop之后:大数据的未来

在实时数据世界里,为什么我们还这么执着于Hadoop?根据调查数据显示,围绕批处理架构的Hadoop仍然是大数据的代表技术,尽管其声誉仍然超过实际部署情况。还没有真正部署Hadoop的企业可能想要再等一等。而随着Apache Spark等其他技术(Storm、Kafka等)的出现,我们似乎与Hadoop的批处理渐行渐远,逐渐转向实时数据的未来。批处理不是重点Cloudera的Doug...

2019-05-15 21:13:50 136

原创 教你如何度量Hadoop,不浪费每一分性能

对于产品经理来讲,了解产品的使用情况是最为重要的事情之一。不过,对于Hadoop平台这样的产品来讲这件事情就有点飘忽不定了。Hadoop平台上有各种各样的运维度量对任务状态、错误、计算资源、存储等进行测量,从而帮助用户了解平台的健康状况,进而提高用户体验。对于消费级互联网、移动互联网公司的产品经理来讲,同样的事情也是存在的。举例来说,就消费级产品来讲,它们的度量通常围绕用户活动、参与度、收入、转换...

2019-05-15 21:12:47 166

原创 面试hadoop可能被问到的问题,附参考答案

近几年大数据越来越热,大数据分析和开发的求职者越来越多,面试都是一个必过的坎,尤其大数据开发人员,考察hadoop是必须的,以下是一些hadoop开发这面是的问题和参考答案!尽信书不如无书,尽信答案不如无答案,下面只供参考:一、hadoop运行的原理?hadoop主要由三方面组成:1、HDFS2、MapReduce3、HbaseHadoop框架中最核心的设计就是:MapRed...

2019-05-15 21:11:31 987

原创 PowerLinux成就大数据的天时地利人和

在经过所有媒体的强力渲染以及众多企业的实践之后,大数据的好处已经无需多言。但相对于优势,传统数据中心在应对大数据需求时也暴露出众多弊端,使得现有x86平台想要顺利上马大数据应用和分析项目变得非常困难。虽然x86能够以集群的形式为企业提供海量的计算和分析能力,但集群本身仍需要消耗大量资源在并行处理的调度和协同上,换句话说,x86集群只不过是在1+1<2的情况下的一种无奈折衷。当然,...

2019-05-14 10:27:19 415

原创 Hadoop的五大误区

ApacheHadoop助力企业应对他们最艰难的挑战之一——利用海量数据创造价值。用户普遍部署Hadoop框架,是因为它能够帮助企业从各种不同类型的大数据中获得价值。独立分析机构ForresterResearch公司发布的《Forrester浪潮:大数据Hadoop解决方案》(2014年一季度版)报告显示,Hadoop的开源架构逐渐深入适应企业环境,其疯狂的发展势头已无法阻挡。其全新独特的数据管理...

2019-05-14 10:25:11 134

原创 大数据的兴起,数据科学家的崛起

仅仅几年,还没有大数据概念,如今各大行业巨头纷纷把目光投向了大数据以待投资。大数据概念的兴起,带动了一大批职业的兴起,仅仅在几年前,数据科学家还不是一个正式确定的职业,然而一眨眼的工夫,这个职业就已经被誉为“今后十年IT行业最重要的人才”了。在这里我还是要推荐下我自己建的大数据学习交流qq裙:522189307 , 裙 里都是学大数据开发的,如果你正在学习大数据 ,小编欢迎你加入,大家都是软件开...

2019-05-14 10:23:57 1573

原创 Hadoop——大数据处理的宠儿

驱动大数据增长的主要因素包括移动设备和社交网络的大幅度增长、以往纸质文件的数字化以及科研数据的增长。“他们的存档文件正在高速增长,因为他们并不清楚哪些需要保存,哪些不需要保存,”EMC旗下的Isilon公司美国首席技术官Rob Peglar说道。  各个产业的公司都在为大数据分析投入大量资金。其中一个产业为对病人数据进行分析诊疗的医疗产业。Peglar说,在金融服务产业,对数据进行定...

2019-05-12 12:41:50 177

原创 从八大热门工作看未来大数据的发展

大数据时代,数据过剩,人才短缺,越来越多的IT专业人士希望能够进入充满机遇的大数据领域,但是,到底哪些具体的大数据专业岗位和人才最为吃香呢?一、ETL开发者(11-13万美元)随着数据种类的不断增加,企业对数据整合专业人才的需求越来越旺盛。ETL开发者与不同的数据来源和组织打交道,从不同的源头抽取数据,转换并导入数据仓库以满足企业的需要。ETL软件行业相对成熟,相关岗位的工...

2019-05-12 12:40:32 197

原创 如何把握大数据的商业智能?

近年来,商业智能技术发展如火如荼,其应用也日趋广泛。越来越多的企业借助商业智能技术来发现商务运营过程中存在的问题,寻找有效的解决方案。随着计算机技术和信息技术的进步,商业智能已开始渗入企业管理的方方面面,并且发挥着越来越重要的作用。  然而,在当今的大数据时代,数据获取的单位成本持续下降,数据获取渠道日益增多,大数据“多样性”、“大容量”、“高速度”的现象越来越严重。需处理的数据不仅...

2019-05-12 12:39:18 569

原创 大数据分析:挖掘出的五大安全线索

随着安全分析技术不断成熟,企业会惊喜地发现对安全相关数据的系统分析能够为他们挖掘出很多有价值的信息,下面是5个从安全分析中挖掘出的信息:  1、挖掘出你不知道需要提出的问题  IT基础设施和安全工具产生的巨量非结构化数据让安全分析师甚至很难开始查询数据,以回答有关企业风险状态的常见问题。让分析程序回答这些显而易见的问题有时候会出现意想不到的回报,因为会出现其他模式来回...

2019-05-12 12:38:13 251

原创 非结构化数据分析:大数据时代新价值

“大数据”是近两年来各界最热议的话题之一,和“大数据”相关的实践几乎成为所有行业在技术和商业两个方面最具创新意义的行动。在越来越多企业重视“大数据”价值的同时,新型数据的挑战也随之而来。据IBM商业价值研究院和牛津大学赛德商学院共同发布的《分析:大数据在现实世界中的应用》显示,全球仅四分之一的受访者表示自己具备了分析高度非结构化数据的能力,而对大部分组织而言,掌握先进的非结构化数据分析能...

2019-05-12 12:36:48 4923

原创 如何顺应“大数据”时代变革?

大数据”时代抢占先机。工商部门作为我国市场主体登记部门,积累了大量的市场主体登记、行政执法、投诉举报和内部管理等数据。这些数据是“国家经济户籍库”的重要组成部分,也是我国市场经济的“晴雨表”。积极应对,用科学方法对数据进行处理、分析从工商数据出发,对大数据进行深度的分析,挖掘出有效信息为决策提供参考。即通过市场主体分析发现经济增长的内生动力,通过市场主体发展透析产业结构调整与优...

2019-05-12 12:35:20 394

原创 大数据时代:大数据意味着什么?

 大数据这东西你说一套他说一套,不管怎么说,总之大数据非常复杂。其中部分原因是大数据并不是单纯技术,虽然听上去好像是,大数据是对数据收集、储存和处理的多种优化方式和技术提升,跨整个技术领域。此外,大数据所涉及到的数据、隐私、甚至是大数据的“大”,根据不同的应用环境都有不同的具体含义。大数据的研究已经进行了5年。  以下是白宫团队需要解读的关于大数据的5个方面。  隐私利弊共存...

2019-05-12 12:34:17 774

原创 大数据Hadoop环境网络特性

Hadoop集群中的各节点通过网络连接起来,而且MapReduce中的以下过程会在网络中传输数据。 (1) 写数据。当向HDFS写入初始数据或者大块数据时,会发生数据写入过程。写入的数据块需要备份到其他节点,需要在网络中传输这些数据。 (2) 作业执行。 1) Map阶段。在算法的Map阶段,几乎不需要在网络中传输数据。在Map开始阶段,当HDFS数据没有本...

2019-05-09 21:59:55 807

原创 大数据时代下传统数据中心发展的思考

大数据时代下传统数据中心发展的思考大数据的核心价值在于从海量的复杂数据中挖掘出有价值的信息,通过大数据技术进行更快地分析、更准确地预测,发掘出新的业务模式,创造新的商业发展机会。因此,大数据时代下,企业迫切需要思考如何应用大数据技术改造完善已有数据中心平台,提升企业的数据处理能力,提高数据分析水平,将大数据融入企业的整体数据方案。1、部署大数据分布式处理框架...

2019-05-09 21:59:53 1353

原创 大数据如何改变DBA工作模式

技术支持团队通常是支持熟悉的软硬件配置。在操作系统和数据库管理软件上特定组合的专业化是很常见的,而且这也允许某些团队成员在一家企业的IT环境中获得极为有价值的深层经验。大数据是如何改变这种模式的呢?数据库支持团队 技术支持团队的目标之一就是要与管理层协作来把他们的工作区分出优先次序。管理层提出战略规划,团队将之转化为所需时间和资源的可估计任务,然后他们共同协...

2019-05-09 21:59:51 1135

原创 大数据应用对网络工程师提出新要求

Plexxi是一家软件定义网络(SDN)初创公司,提供控制器、交换机等企业网络解决方案。作为Plexxi的产品管理高级总监,Marten Terpstra最近在他的博客中详细讲述了大数据为企业网络所带来的变革,以及企业的应对方法。我们对这篇文章进行了整理,希望能够对您有所启发。 在大数据时代,人们很少谈论跟网络相关的话题,仿佛网络与大数据是风马牛不相及的两回事。事实上,网络不仅...

2019-05-09 21:59:49 1178

原创 对于大数据,你必须要明白

“人类正从IT时代走向DT时代,”阿里巴巴集团创始人马云在各种场合都不遗余力地推销自己的观点,信息社会已经进入了大数据(Big Data)时代。大数据的涌现改变着人们的生活与工作方式,也改变着制造业企业的运作模式。 一、制造业也处于一个数据爆炸的时代 近年来,随着互联网、物联网、云计算等信息技术与通信技术的迅猛发展,数据量的暴涨成了许多行业共同面对的严峻挑战和宝贵机遇。随...

2019-05-09 21:59:47 1022

原创 Hadoop大数据可以帮助医疗机构5种方法

在医疗行业的所有信息中非结构化数据大约占80%,并且增长速度比大多数人甚至可以理解的速度要快。通过数据排序,查找需要的病人信息,并做研究的诊断和治疗几乎是不可能没有的Hadoop的巨大技术能力的。 该MAPR分布,包括Hadoop是帮助供应商组织医疗文件,与其他医生,患者和组织,流程和实验室结果,财务数据,临床资料,影像学报告,和输出的医疗设备进行通信交流。该功能几乎是无止境的...

2019-05-09 21:59:46 1344

原创 大数据的下一个五年:Hadoop将推动数据平民化

几年前,还有评论人士称,Hadoop只能应用于企业10%的数据。但今日一份名为《2014年数据库技术现状调查》的数据显示,13%的受访者已经将Hadoop应用于产品生产和测试。未来,Hadoop有望在企业各个角落得到应用。而在性能和用途都有显著增长的同时,Hadoop的部署成本仍然会保持相对低廉。数据平民化 随着大数据的快速发展,未来五年内,数据量和数据类型都会快...

2019-05-09 21:59:44 283

原创 未来五年,大数据将与云计算更加融合

高调的厂商,比如AWS、谷歌、微软、IBM和Rackspace等,都提供云基础的Hadoop和NoSQL数据库平台来支持大数据应用程序。很多初创公司都引入了云平台上的管理服务,按需部署自己的系统。大数据和云计算的融合往往是互联网公司的首先项,尤其是初创的软件和数据服务供应商。 但很多主流公司并不像互联网公司那样看重云端数据管理。一些公司担心云端的数据安全和隐私保护。一些公司还在大...

2019-05-09 21:59:42 417

原创 为什么大数据会如此轰动?

1、存在的背景 基础设施的巨大飞跃,数据储存技术、网络技术的迅猛发展,为大数据时代的到来准备了物质基础。 物联网本质上就是更多采集数据的入口和节点;云计算培养了服务的商业模式和集中建设降低单位计算和存储成本。到了移动互联网就更有意思了:第一个特点是身份,在合适的时间,合适的地点,将合适的信息送给合适的人,你要知道你的对方是谁,他有什么喜好,他现在是什么状态,没有这个精...

2019-05-09 21:59:39 600

原创 BI商业智能与大数据应用的区别

BI(BusinessIntelligence)即商务智能,它是一套完整的解决方案,用来将企业中现有的数据进行有效的整合,快速准确的提供报表并提出决策依据,帮助企业做出明智的业务经营决策。 伴随着BI的发展,是ETL,数据集成平台等概念的提出。ETL,Extraction Transformation Loading,数据提取、转换和加载,数据集成平台主要功能对各种业务数据进行...

2019-05-09 21:59:37 765

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除