自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

大数据领航者

大数据学习

  • 博客(100)
  • 收藏
  • 关注

原创 10个热门大数据发展趋势

在你进入大数据的世界时,需要了解很多不同类型的数据库和数据管理技术。下面列出了10个大数据发展趋势: 1. Hadoop正在成为分布式大数据管理的基础架构。Hadoop是一个分布式文件系统,与MapReduce结合使用来处理和分析大数据。Hadoop将会和数据仓库技术紧密集成,以更有效地集成结构化数据和非结构化数据。 2. 大数据技术使得从传感器提取数据并影响商业产出...

2019-05-09 22:00:01 1024

原创 大数据学习之BigData常用算法和数据结构

1.Bloom Filter 由一个很长的二进制向量和一系列hash函数组成 优点:可以减少IO操作,省空间 缺点:不支持删除,有误判 如果要支持删除操作: 改成计数布隆过滤器2.SkipList(跳表) 核心思路: 由多层组成,每层都是一个有序链表,最底层包含所有元素,元素数逐层递减。每个节点包含两个指针,一个-...

2019-05-09 21:59:59 2975

原创 Hadoop技术全解析 深度挖掘大数据背后的秘密

大数据最近火热程度上升,而与之相关联的概念Hadoop也在被网友讨论?Hadoop到底是什么,它的技术基础是什么,主要用来干什么了呢?下面我们将详细探讨。 在了解以上问题之前,我们先了解三个最基本的知识点,这样子,你更能深入地了解大数据的内涵。 1.大数据是什么?2.Hadoop是什么? 3.大数据与Hadoop之间是什么关系?...

2019-05-09 21:59:57 1690

原创 大数据发展的根基是什么?

如果将单个或局部领域的数据及其挖掘处理视为小数据,那么关于某一主体的大数据就是由成千上万、相互关联、相互交织的小数据汇聚而成的。小数据的充分融合,就是大数据形成的根基。 大数据活在“云端”!唯有云计算能让大数据找到自己的轨迹和存在的真正价值;但大数据不是无根的浮云,它有自己的根,源源不断输送数据的根。 那么,大数据的“根”在哪里?日前国务院出台的《促进大数据发展行动...

2019-05-09 21:59:32 2513

原创 当今世界最牛的25位顶尖大数据科学家

 在大数据技术飞速发展的今天,谁才是我们大数据科研与工业界中最有威望的科学家呢?下面我们来进行梳理,共罗列了25位当今世界,无论是在学术与工业界都产生巨大影响的数据科学家(Data Scientists)。他(她)们推动了整个领域的发展,毫无疑问,无论是在学术界还是还工业界,他(她)们都是一座座山头式的人物。他(她)们是我们这些从事大数据产业发展的榜样。他(她)们便是所谓的大师级人物。在这里我...

2019-05-09 21:59:31 18004

原创 大数据之谜Spark基础篇,核心RDD特征分析讲解

 RDD特征概要总结:  a、RDD是Spark提供的核心抽象,全称为Resillient Distributed Dataset,即弹性分布式数据集。  b、RDD在抽象上来说是一种元素集合,包含了数据。它是被分区的,分为多个分区,每个分区分布在集群中的不同节点上,从而让RDD中的数据可以被并行操作。  c、RDD通常通过Hadoop上的文件,即HDFS文件或者Hive表,来进行创建;有时...

2019-05-06 22:00:01 241

原创 大数据和Hadoop的培训计划能产生多大的影响?

 几乎每个专业人士都可以从使用大数据和Hadoop等有针对性的分析技术中受益。使用培训计划帮助企业的团队理解并实施这些创新。  大数据通常被描述为大量的数据。然而,数据量实际上并不重要,而是可以在数据上执行的分析,以便做出更好的决定和其他商业活动。Hadoop是另一种为大数据更好地处理而开发的技术。由于Hadoop开发人员能够以更好的方式执行分析,因此企业对Hadoop开发人员的需求也正在增长。...

2019-05-06 21:59:59 1228

原创 Hadoop工具如何形成SAP Hana的大数据平台

 自2008年以来,SAP Hana一直是领先的数据库管理系统之一。它比许多其他数据库管理解决方案能够更有效地处理数据,主要是因为它可以使用一些最先进的Hadoop工具。没有Hadoop,大多数SAP Hana数据库将是相对无用的。访问大多数数据集将是困难的,特别是在它们存储原始数据的时候。  为什么Hadoop是SAP Hana的骨干  迈克尔·考克斯和戴维·埃尔斯沃斯在19...

2019-05-06 21:59:58 1336

原创 kafka 数据可靠性深度解读

 1 概述  Kakfa起初是由LinkedIn公司开发的一个分布式的消息系统,后成为Apache的一部分,它使用Scala编写,以可水平扩展和高吞吐率而被广泛使用。目前越来越多的开源分布式处理系统如Cloudera、Apache Storm、Spark等都支持与Kafka集成。  Kafka凭借着自身的优势,越来越受到互联网企业的青睐,唯品会也采用Kafka作为其内部核心消息...

2019-05-06 21:59:41 1642

原创 Hadoop,Spark,Kafka这些名字背后的故事!

说起hadoop,可能现在许多人都不会陌生,但读就不一定读的对了。Hadoop的发音是[hædu:p]。Hadoop这个名字是Hadoop项目创建者DougCutting的儿子的一只玩具的名字。他的儿子一直称呼一只黄色的大象玩具为Hadoop。这刚好满足Cutting的命名需求,简短,容易拼写和发音,毫无意义,不会在别处使用。于是Hadoop就诞生了。 在这...

2019-05-05 21:59:56 1034

原创 关于“大数据”的15条干货思考

 1.马云创造了“DT”(大数据时代)这个词,说未来社会不是IT时代,而是DT时代,而阿里巴巴战略定位为做DT时代的基础设施。类似于IT时代的微软,移动互联网时代的苹果之类的意思。马云去年在云栖大会上提出未来30年的“五个新”,分别是“新零售,新制造,新金融,新技术,新能源”,其中“新能源”就是大数据,其讨论的相对比较少,似乎公众只关心的是公民数据安全问题,对于产业方面的大数据觉得比较抽象,实际上...

2019-05-05 21:59:55 406

原创 大数据分析思路的4点心得

 大数据分析能力对于一名产品经理来说是最基本的能力。 在面试的过程中,社招会有面试官会问你以往你负责的产品的相关数据,如何看待这些数据,如何通过这些数据来做接下来的产品优化;校招的面试官可能会问小伙伴们关于分析数据的思维;在产品经理的日常工作当中,要时长盯着数据的报表来分析产品的健康程度。本文不再对一些基本的数据定义再做描述,而是从分析的思路总结了一些心得,欢迎各位一起来讨论。在这里我还是要推...

2019-05-05 21:59:53 585

原创 从小白到大数据技术专家的学习历程

最近有很多人问我,大数据是怎么学?需要学什么技术以及这些技术的学习顺序是什么?今天有时间我把个问题总结成文章分享给大家。  ·大数据处理技术怎么学习呢?首先我们要学习Java语言和Linux操作系统,这两个是学习大数据的基础,学习的顺序不分前后。  Java:大家都知道Java的方向有JavaSE、JavaEE、JavaME,学习大数据要学习那个方向呢?  ...

2019-05-05 21:59:51 423

原创 大数据将改变商业智能的布局

 传统数据仓库的性能已无法应付庞大的信息,但是大数据(Big Data)技术使我们能够访问和使用这些宝贵的、大规模数据集以应对越来越复杂的数据分析和更好的商业决策制定。  大数据明确将被持续下去。Gartner公司的分析师声称信息量每年正以最少59%速度在递增。IDC最新的数字宇宙(Digital Universe)研究估计到2020年世界上的数据存储总额将达到35 ZB(zettabyte...

2019-05-04 21:59:56 1155

原创 大数据触发大竞技

 分布式计算(Hadoop)和大数据(Big Data)技术的一个重要应用是分析用户的社交行为,有些时候它们会在用户毫不知情的情况下进行分析。  大数据通常指大量不断增长的数据,包括Facebook和Twitter网站上的非结构化数据,以及从这些数据中收集信息创造商业机会的方法。然而,这一概念对于那些在互联网上展示自己生活的人来说具有风险,同时也带来了一个疑问,即到底谁该拥有这些数据?...

2019-05-04 21:59:52 301

原创 大数据分析系统Hadoop的13个开源工具

Hadoop是由Apache基金会开发的一个大数据分布式系统基础架构,最早版本是2003年原Yahoo!DougCutting根据Google发布的学术论文研究而来。  用户可以在不了解分布式底层细节的情况下,轻松地在Hadoop上开发和运行处理海量数据的应用程序。低成本、高可靠、高扩展、高有效、高容错等特性让Hadoop成为最流行的大数据分析系统,然而其赖以生存的HDFS和MapReduce组...

2019-05-03 21:59:45 1527

原创 大数据领域开源技术,除了 Hadoop 你还知道哪些?

众所周知,大数据正在以惊人的速度增长,几乎触及各行各业,许多组织都被迫寻找新的创造性方法来管理和控制如此庞大的数据,当然这么做的目的不只是管理和控制数据,而是要分析和挖掘其中的价值,来促进业务的发展。想要深入发展大数据,闭门造车是不可能的,共通共融是现在趋势,因此,开源让越来越多的项目可以直接采用大数据技术。如今,从小型初创企业到行业巨头,各种规模的供应商都在使用开源来处理大数据和运行预测分析...

2019-05-03 21:59:43 2286 1

原创 大数据时代,这些专业人才相对吃香!

大数据有什么用  了解用户特征  通过大数据,百度掌握你的隐私,微信知道你的社交圈子,淘宝了解你的购物习惯,移动电信联通三大运营商存有你的通话记录和上网记录……  给企业和商业带来巨大价值  网络浏览历史记录以及使用的应用等数据销售给广告客户。当用户距离商家很近时,就有可能收到该商家提供的折扣很大的电子优惠券等等。  为生活带来福利  大数据可以辅助临床诊断和用药决策;为公共卫生机构提...

2019-05-03 21:59:40 1774

原创 基于Hadoop的大数据平台实施

 大数据的热度在持续的升温,继云计算之后大数据成为又一大众所追捧的新星。我们暂不去讨论大数据到底是否适用于您的公司或组织,至少在互联网上已经被吹嘘成无所不能的超级战舰。好像一夜之间我们就从互联网时代跳跃进了大数据时代!关于到底什么是大数据,说真的,到目前为止就和云计算一样,让我总觉得像是在看电影《云图》——云里雾里的感觉。或许那些正在向你推销大数据产品的公司会对您描绘一幅乌托邦似的美丽画面,但是您...

2019-05-03 21:59:37 1745

原创 创建有效的大数据模型的6个技巧

数据建模是一门复杂的科学,涉及组织企业的数据以适应业务流程的需求。它需要设计逻辑关系,以便数据可以相互关联,并支持业务。然后将逻辑设计转换成物理模型,该物理模型由存储数据的存储设备、数据库和文件组成。  历史上,企业已经使用像SQL这样的关系数据库技术来开发数据模型,因为它非常适合将数据集密钥和数据类型灵活地链接在一起,以支持业务流程的信息需求。  不幸的是,大数据现在包含了很大比例的管理数据...

2019-05-03 21:59:35 1277

原创 大数据的8个最佳实践

大数据如果应用不当可能很容易失控,并可能消耗企业资源和预算。在这里将介绍避免混乱的一些大数据的最佳实践。  大数据可以为用户提供卓越的洞察力,也有可能让企业不堪重负。而企业根据其收集数据做出自己的选择。企业面临的主要问题是大数据是由技术专业人员收集的技术解决方案,但最佳实践是其业务流程。  由于资源和输入设备得到爆炸式增长,人们收集到的数据比以往更多。根据IBM公司的调查,大多数美国公司存储的...

2019-05-03 21:59:32 2699

原创 大数据与区块链:一对桴鼓相应的搭档

 大数据能够对海量信息资产通过高效的处理模式来进行捕捉、管理和处理,而区块链本身作为分布式计算的一种,还有去中心化以及不可篡改等特性,两者之间,似乎天然就有合作的可能性。  大数据虽然能够收集海量数据并进行处理,但却无法保证数据的安全性,而作为虚拟货币底层技术的区块链,在这方面却是天赋凛然,自两者诞生之初,便有着强大的吸引力。对大数据以及人工智能概念都是模糊不清的,该按照什么线路去学习,学完...

2019-05-03 21:59:30 554 1

原创 大数据和Hadoop的培训计划能产生多大的影响?

 几乎每个专业人士都可以从使用大数据和Hadoop等有针对性的分析技术中受益。使用培训计划帮助企业的团队理解并实施这些创新。  大数据通常被描述为大量的数据。然而,数据量实际上并不重要,而是可以在数据上执行的分析,以便做出更好的决定和其他商业活动。Hadoop是另一种为大数据更好地处理而开发的技术。由于Hadoop开发人员能够以更好的方式执行分析,因此企业对Hadoop开发人员的需求也正在增长。...

2019-05-03 21:59:25 444

原创 除Hadoop外的9个大数据技术分析盘点

Hadoop是大数据领域最流行的技术,但并非唯一。还有很多其他技术可用于解决大数据问题。除了Apache Hadoop外,另外9个大数据技术也是必须要了解的。对大数据以及人工智能概念都是模糊不清的,该按照什么线路去学习,学完往哪方面发展,想深入了解,想学习的同学欢迎加入大数据学习qq群:458345782,有大量干货(零基础以及进阶的经典实战)分享给大家,并且有清华大学毕业的资深大数据讲...

2019-05-03 21:59:22 888

原创 关于大数据最常见的10个问题

1、云计算与大数据是什么关系?云计算的关键词在于“整合”,无论你是通过现在已经很成熟的传统的虚拟机切分型技术,还是通过google后来所使用的海量节点聚合型技术,他都是通过将海量的服务器资源通过网络进行整合,调度分配给用户,从而解决用户因为存储计算资源不足所带来的问题。大数据正是因为数据的爆发式增长带来的一个新的课题内容,如何存储如今互联网时代所产生的海量数据,如何有效的利用分析这些数据等...

2019-05-03 21:59:19 2396

原创 大数据时代十大热门IT岗位

 新的想法诞生新的技术,从而造出许多新词,云计算、大数据、BYOD、社交媒体、3D打印机、物联网……在互联网时代,各种新词层出不穷,令人应接不暇。这些新的技术、新兴应用和对应的IT发展趋势,使得IT人必须了解甚至掌握最新的IT技能。另一方面,云计算和大数据乃至其他助推各个行业发展的IT基础设施的新一轮部署与运维,都将带来更多的IT职位和相关技能技术的要求。在这里我还是要推荐下我自己建的大数据学...

2019-05-02 22:00:20 767

原创 大数据告诉你,如何挑选高薪热门行业?

每年都会有很多毕业生为了工作而苦恼,不知道未来什么行业才是最受欢迎。那么热门行业有哪些,怎样才能跻身于热门行业呢?我们将通过大数据告诉你答案。  可以看得出来金融、证券、房产行业依旧是吸金行业三巨头!  北上广深等传统一线城市的整体薪酬是最高,同时金融行业的薪酬待遇是最好。北上广深的金融行业基本已处于产业发展的成熟期。杭州和南京(江浙地区)的金融和房产行业薪酬水平较其他行业更高;沈阳和青岛(东...

2019-05-02 22:00:18 720

原创 大数据处理技术如何学习?

  首先我们要学习Python语言和Linux操作系统,这两个是学习大数据的基础,学习的顺序不分前后。  Python:Python 的排名从去年开始就借助人工智能持续上升,现在它已经成为了语言排行第一名。  从学习难易度来看,作为一个为“优雅”而生的语言,Python语法简捷而清晰,对底层做了很好的封装,是一种很容易上手的高级语言。在一些习惯于底层程序开发的“硬核”程序员眼里,Python...

2019-05-02 22:00:13 222

原创 大数据的核心是云技术和BI

  关于大数据和云计算的关系人们通常会有误解。而且也会把它们混起来说,分别做一句话直白解释就是:云计算就是硬件资源的虚拟化;大数据就是海量数据的高效处理。如果做一个更形象的解释,云计算相当于我们的计算机和操作系统,将大量的硬件资源虚拟化之后再进行分配使用;大数据则相当于海量数据的“数据库”。对大数据以及人工智能概念都是模糊不清的,该按照什么线路去学习,学完往哪方面发展,想深入了解,想学习的同学...

2019-05-02 21:59:24 1351

原创 大数据处理引擎Spark与Flink大比拼

 下一代大数据计算引擎  自从数据处理需求超过了传统数据库能有效处理的数据量之后,Hadoop 等各种基于 MapReduce 的海量数据处理系统应运而生。从 2004 年 Google 发表 MapReduce 论文开始,经过近 10 年的发展,基于 Hadoop 开源生态或者其它相应系统的海量数据处理已经成为业界的基本需求。  但是,很多机构在开发自己的数据处理系统时都会发现需要面临一系列...

2019-05-02 21:59:17 1573

原创 大数据、人工智能与其它的技术彼此的界限日益模糊

  任何事物只有放在它所存在的环境中,才能准确理解它的本质。  今天,大数据、人工智能等概念由于商业炒作等多方面的原因,已经变得模糊不清了。许多具体的技术也被罩上了夺目的光环,或有意被赋予了能够引发奇妙想象的名字,如“深度学习”。  下面,我们来看一下信息技术产业中的不同要素,在从科学到应用的这个链条上,各自处于什么样的位置。为了不陷入不必要的细节而又能揭示本质,我们将这个链条分为五个环节:科...

2019-05-02 21:59:14 1279

原创 小议Lambda与Kappa架构,不可变数据的计算探索

 首先我们来看看什么是Lambda架构,Lambda演算在编程语言之中是一个编程范式,它遵循如下几个特点:  数据的不可变性,任何对于数据的操作是没有副作用。  数据的无依赖性,即对函数提供同样的输入,那么函数总是返回同样的结果。  函数是First Class,函数与其他数据类型一样,处于平等地位,可以赋值给其他变量,也可以作为参数,传入另一个函数,或者作为别的函数的返回值。  来自Tw...

2019-05-02 21:59:11 1256

原创 全面了解大数据“三驾马车”的开源实现

Google 大数据“三驾马车”的第一驾是 GFS(Google 文件系统),而 Hadoop 的第一个产品是 HDFS,可以说分布式文件存储是分布式计算的基础,也可见分布式文件存储的重要性。Google File System(GFS)的开源实现:HDFSGoogle 大数据“三驾马车”的第一驾是 GFS(Google 文件系统),而 Hadoop 的第一个产品是 HDFS,可...

2019-05-02 21:59:07 6395

原创 从大数据到 AI:AI 的现状和未来

事实证明,从大数据到数据分析再到 AI 的转变是一个很自然的过程。这不仅是因为这个过程有助于调整人类的思维模型,或者因为大数据和数据分析在被 AI 夺去光彩之前浸淫在 AI 的各种炒作中,主要还是因为我们需要通过大数据来构建 AI。在这里我还是要推荐下我自己建的大数据学习交流qq裙:522189307 , 裙 里都是学大数据开发的,如果你正在学习大数据 ,小编欢迎你加入,大家都是软件开发党,不...

2019-05-02 21:58:31 3879

原创 Yahoo的新一代大数据技术架构解析

Hadoop是当前最流行的大数据技术架构,很多大数据应用都是建立在Hadoop平台基础之上。很多人都知道Hadoop是Apache基金会的顶级开源项目,但Hadoop是当前最流行的大数据技术架构,很多大数据应用都是建立在Hadoop平台基础之上。很多人都知道Hadoop是Apache基金会的顶级开源项目,但并不是每个人都知道,在Hadoop的演进发展中,70%的贡献是来自Yahoo公司。 ...

2019-05-02 21:58:04 1411

原创 五个顶级的大数据架构

  自从像AWS这样的公共云产品开辟了大数据分析功能以来,小企业通过挖掘大量的数据做到只有大企业才能做到的事情,至今大约有10年时间。这些事情其中包括网络日志、客户购买记录等,并通过按使需付费的方式提供低成本的商品集群。在这十年中,这些产品蓬勃发展,涵盖了从实时(亚秒级延迟)流媒体式分析到用于分析批量模式工作的企业数据仓库,而企业数据仓库则可能需要数天或数周才能完成。  以下将介绍用于大数据堆栈...

2019-05-01 17:49:59 536

原创 换个姿势入门大数据

  这篇文章的目的是带那些对大数据不了解又有兴趣的人入门。如果你是老手可以忽略,或者想看看有没有不一样的东西也行。  我们学习一个新知识,第一步应该是给它个明确的定义。这样才能知道你学的是什么,哪些该学,哪些又可以先不用管。  然而,大数据虽然很火,但其实是个概念没那么清晰的东西,不同的人可能有不同的理解。  这次我们不去纠结具体的定义,也忽略那些 4 个 V、6 个 C 之类传统说教的东西...

2019-05-01 17:49:54 254

原创 什么样的大数据平台架构,才是最适合你的?

 技术最终为业务服务,没必要一定要追求先进性,各个企业应根据自己的实际情况去选择自己的技术路径。  它不一定具有通用性,但从一定程度讲,这个架构可能比BAT的架构更适应大多数企业的情况,毕竟,大多数企业,数据没到那个份上,也不可能完全自研,商业和开源的结合可能更好一点,权当抛砖引玉。  大数据平台架构的层次划分没啥标准,以前笔者曾经做过大数据应用规划,也是非常纠结,因为应用的分类也是横纵交错,...

2019-05-01 17:49:13 911 6

原创 Hadoop生态系统各组件与Yarn的兼容性如何?

 作为Hadoop 2.0中出现的资源管理系统,Yarn总体上仍然是master/slave结构,在整个资源管理框架中,resourcemanager为master,nodemanager是slave。作为Hadoop生态系统的一部分,Yarn要想获得市场认可,必须学会与Hadoop生他系统中其他组件兼容。本文作为《Hadoop从入门到精通》大型专题的第二章第三节,主要介绍了Yarn如何与Hado...

2019-05-01 17:32:20 533 5

原创 人工智能和大数据的开发过程中需要注意这12点

人工智能是近年来科技发展的重要方向,在大数据时代,对数据采集、挖掘、应用的技术越来越受到瞩目。在人工智能和大数据的开发过程中,有哪些特别需要注意的要点?  人工智能领域的算法大师、华盛顿大学教授Pedro Domingos对此进行了深入思考。 对大数据以及人工智能概念都是模糊不清的,该按照什么线路去学习,学完往哪方面发展,想深入了解,想学习的同学欢迎加入大数据学习qq群:45834578...

2019-05-01 17:31:34 277

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除