自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

大数据学习博客

大数据技能学习方法

  • 博客(43)
  • 收藏
  • 关注

原创 用大数据思维做运维监控是怎样一种体验?

这篇文章谈的是运维都有哪些数据,哪些指标,以及数据呈现。并没有谈及如何和大数据相关的架构做整合,从而能让这些数据真的变得活起来。  比较凑巧的是,原先百度的桑文峰的分享也讲到日志的多维度分析,吃完饭的时候,一位优酷的朋友也和我探讨了关于业务监控的的问题。而我之前发表在肉饼铺子里的一篇文章《 大数据给公司带来了什么 》也特地提到了大数据对于整个运维的帮助,当时因为这篇内容的主旨是罗列大数据...

2019-05-09 15:29:37 1829

原创 Hadoop/Spark生态圈里的新气象

 令人惊讶的是,Hadoop在短短一年的时间里被重新定义。让我们看看这个火爆生态圈的所有主要部分,以及它们各自具有的意义。  Hadoop/Spark生态圈里面的新气象对于Hadoop你需要了解的最重要的事情就是,它不再是原来的Hadoop。  这边厢,Cloudera有时换掉HDFS改用Kudu,同时宣布Spark是其圈子的核心(因而一概取代发现的MapReduce);那边厢,...

2019-05-09 15:28:21 512

原创 Hadoop之父Doug Cutting眼中大数据技术的未来

成长史 1985年毕业于美国斯坦福大学的Cutting并不是一开始就决心投身IT行业的。在大学时代的头两年,Cutting学习了诸如物理、地理等常规课程。因为学费的压力,Cutting开始意识到,自己必须学习一些更加实用、有趣的技能。这样,一方面可以帮助自己还清贷款,另一方面,也是为自己未来的生活做打算。因为斯坦福大学座落在IT行业的“圣地”硅谷,所以学习软件对年轻人来...

2019-05-09 15:27:26 754

原创 15个关于大数据的事实和真相

 跟踪大数据的趋势,研究和统计数据为专业人士提供了一个规划大数据项目的坚实的基础,这里有每个IT专业人士都应该知道的15个有关大数据的重要事实。  每个人都在谈论大数据,从年度支出的挑战,到创造就业机会,甚至大数据项目所需的工具。很多人相信大数据能帮助企业做出更好的决策——的确,十个高管中有八个同意或强烈同意这种说法”如果我们能够利用我们所有的数据,我们将会有一个更强大的业务。”...

2019-05-09 15:26:24 921

原创 Hadoop 2.7.6安装_伪分布式集群

本篇主要演示在Linux上安装单节点Hadoop模式,以及伪分布式Hadoop模式。一 安装环境操作系统:Oracle Linux Server release 6.5;Java版本:java-1.7.0-openjdk-1.7.0.45;Hadoop版本:hadoop-2.7.6;二 安装前准备1 创建hadoop用户[root@strong ~]# useradd hado...

2019-05-06 14:56:02 596

原创 Hadoop HA架构剖析

Hadoop HA架构即 Hadoop 高可用架构,7*24小时不中断服务。实现高可用最关键的是消除单点故障。Hadoop HA 严格来说应该分成各个组件的HA机制——HDFS的HA、YARN的HA。在这里我还是要推荐下我自己建的大数据学习交流qq裙:522189307 , 裙 里都是学大数据开发的,如果你正在学习大数据 ,小编欢迎你加入,大家都是软件开发党,不定期分享干货(只有大数据开发相关...

2019-05-06 14:48:52 982

原创 hadoop完全分布式搭建HA

配置,格式化nn启动,同步,启动所有zk,用ZKFC格式化zk,全部启动第二次以后启动只需要:启动zk,再start-dfs.sh1,system:jdk,ssh2,Hadoop:jdk2,ha: hdfs: 1,nameservice。。。。 2,jn 3,failover 4,auto 》 true core fs...

2019-05-06 14:45:11 392

原创 一分钟让你知道Hadoop是什么

 hadoop是什么?Hadoop是一种分析和处理大数据的软件平台,是Appach的一个用Java语言所实现的开源软件的加框,在大量计算机组成的集群当中实现了对于海量的数据进行的分布式计算。在这里我还是要推荐下我自己建的大数据学习交流qq裙:522189307 , 裙 里都是学大数据开发的,如果你正在学习大数据 ,小编欢迎你加入,大家都是软件开发党,不定期分享干货(只有大数据开发相关的),包括...

2019-05-05 13:59:10 48645 2

原创 10大行业大数据应用痛点及解决策略

大数据已经成为这几年中大部分行业的游戏规则,行业领袖,学者和其他知名的利益相关者都同意这一点,随着大数据继续渗透到我们的日常生活中,围绕大数据的炒作正在转向实际使用中的真正价值。  虽然了解大数据的价值仍然是一个挑战,但其他实践中的挑战包括资金投入和投资回报率以及相关技能仍然是大数据行业排名前列。Gartner调查显示,75%以上的公司正在投资或计划在未来两年投资大数据。  一...

2019-05-05 13:58:20 9098

原创 Apache Spark常见的三大误解

 最近几年关于Apache Spark框架的声音是越来越多,而且慢慢地成为大数据领域的主流系统。最近几年Apache Spark和Apache Hadoop的Google趋势可以证明这一点:  上图已经明显展示出最近五年,Apache Spark越来越受开发者们的欢迎,大家通过Google搜索更多关于Spark的信息。然而很多人对Apache Spark的认识存在误解,在这篇文章中,...

2019-05-05 13:57:05 300

原创 大数据,Hadoop,存储应用的第三极

 数字化转型是当今IT应用的标杆和旗帜,也是讨论最热门的话题。在我看来,数字化转型有两个方面的含义:一是与生产、业务相关的过程尽可能实现数字化,能保留数据全部进行保留;二是基于数据展开分析,动用大数据、人工智能等技术手段,透视数据背后的秘密,产生价值,知道企业生产和业务决策。  对于数字化转型的第一阶段,绝对是一个“烧钱”的阶段,但对于企业来说,这是一个必要条件,具备了数字化的能力不一定...

2019-05-05 13:55:34 200

原创 Java在大数据和互联网发展中的作用是什么?

 Java已经存在了二十多年,是程序员最喜欢、使用最广泛的编程语言之一。如果我们查看编程语言、数据库和操作系统的应用范围,你会发现在过去的几年里似乎并没有什么变化。Java让程序员又爱又恨,那么在大数据和互联网未来的发展中Java又会起到什么样的作用呢?在这里我还是要推荐下我自己建的大数据学习交流qq裙:522189307 , 裙 里都是学大数据开发的,如果你正在学习大数据 ,小编欢迎你加入,...

2019-05-05 13:54:10 1219

原创 大数据架构师必读:常见的七种Hadoop和Spark项目案例

 如果您的Hadoop项目将有新的突破,那么它必定与下边介绍的七种常见项目很相像。有一句古老的格言是这样说的,如果你向某人提供你的全部支持和金融支持去做一些不同的和创新的事情,他们最终却会做别人正在做的事情。如比较火爆的Hadoop、Spark和Storm,每个人都认为他们正在做一些与这些新的大数据技术相关的事情,但它不需要很长的时间遇到相同的模式。具体的实施可能有所不同,但根据我的经验,它们是最...

2019-05-05 13:53:10 471

原创 大数据VS云计算VS人工智能,谁能成为编程界的扛把子?

 大数据、云计算、人工智能,  与其说是“竞争”的关系,不如说是“合作”的关系。  “竞争”之说,是因为世人近来总对“三者谁将成为下个时代的主角”议论纷纷。  而“合作”的解读也许更为本质。  云计算、大数据、人工智能这三者不能分开来讲,而是有着紧密联系的,互相联系,互相依托的,脱离了谁都不能更好的发展。  本文干货,但并不晦涩难懂,看完后你应该会...

2019-05-05 13:51:54 596

原创 大数据在云计算中转换的4个步骤

 如今的企业必须向顾客提供始终如一的高价值体验,否则会失去顾客。他们正在求助于大数据技术。通过大数据分析,组织可以更好地了解他们的客户,了解他们的习惯,并预测他们的需求,以提供更好的客户体验。  但是,大数据转换的路径并不简单。传统数据库管理和数据仓库设备变得过于昂贵,难以维护和规模化。此外,他们无法应对当今面临的挑战,其中包括非结构化数据,物联网(IoT),流数据,以及数字转型相结合的...

2019-05-05 13:50:20 5371

原创 为何大数据在当今世界如此重要?

毫无疑问,各行各业因为大幅爆发的数据而正变得蒸蒸日上。在这10年中,几乎所有行业都或多或少的受到这一巨变的影响。科技渗透到各个领域,并且已经成为每个处理单元的必要元素。谈到IT行业,具体来说,软件和自动化是最基本的术语,并且用于处理循环的每个阶段。  相较于稳定性而言,企业更关心的是敏捷性和创新性,通过大数据技术,可以帮助公司及时实现这一愿望。大数据分析不仅使企业能够跟随瞬息万变的潮流而...

2019-05-05 13:49:18 1069

原创 让大数据分析更有效的5种技术措施

 如今,数据量越来越大。近年来,企业已经意识到数据分析可以带来的价值,并且已经开始采用。企业现在的设备几乎都在监测和测量,并创造了大量的数据,通常比企业处理的更快。其问题是,而正因为大数据定义为“大数据”,所以数据收集的小差异或错误可能会导致出现重大问题,错误信息和不准确的推论。  有了大量数据,就能够以业务为中心的方式来分析它的挑战,实现这一目标的唯一方法就是确保企业制定数据管理策略。...

2019-05-05 13:48:08 2808

原创 深度解析:Spark 优于 Hadoop 吗?

  对于任何一个进入大数据世界的人来讲,大数据和Hadoop 就成了同义词。随着人们学习了大数据生态系统及其工具和运作原理,他们更能理解大数据的实际意义以及Hadoop 在生态系统中所扮演的角色。  维基百科对大数据这样解释:大数据是一个宽泛的术语,它指传统数据处理应用程序无法处理的巨大而复杂的数据集。  简单来讲,随着数据量的增加,采用常规处理方法需要花费大量时间且价格不菲。...

2019-05-04 15:24:42 2862 5

原创 大数据为何这么重要?

毫无疑问,各行各业因为大幅爆发的数据而正变得蒸蒸日上。在这10年中,几乎所有行业都或多或少的受到这一巨变的影响。科技渗透到各个领域,并且已经成为每个处理单元的必要元素。谈到IT行业,具体来说,软件和自动化是最基本的术语,并且用于处理循环的每个阶段。  相较于稳定性而言,企业更关心的是敏捷性和创新性,通过大数据技术,可以帮助公司及时实现这一愿望。大数据分析不仅使企业能够跟随瞬息万变的潮...

2019-05-04 15:23:07 4068 5

原创 大数据研究为什么需要有效的方法

有效的大数据研究方法将有助于解决企业面临的一些常见规划的挑战,特别是将投资重点与战略结合起来的规划。  研究方法可以帮助大数据管理者收集更好、更智能的信息。利用大数据和分析的企业,特别是在研究方法的帮助下,发现他们的盈利能力和生产率比竞争对手高出五到六个百分点。  企业可能认为利用大数据能够大幅提高效率,因此立即寻求采用大数据管理,但如果没有适当的研究方法,大数据成功管理所需的...

2019-05-04 15:22:00 3637 6

原创 大数据要怎么用,12名创业者这样说

当下,大多数企业都明白大数据的作用。大数据——这个庞大甚至是有时是压倒性的信息包含了企业日常经营的过程:销售策略,营销邮件的打开率,网站点击量等等,利用好大数据也能让你发现消费者的行为和心理。  拥有大数据和数据分析工具确实是有帮助的,然而这也是一把双刃剑:过于依赖数据,可能会让我们忽视自己强大的直觉(甚至经常是正确的直觉)。这些直觉又无法量化。针对这个问题,来自青年企业家理事会(YEC...

2019-05-04 15:20:59 2702

原创 大数据告诉你:2019年该学习什么技术

快速增长的技术,快速衰落的技术,稳步增长的技术。我们从中可以看到,2019年你学习什么技术最值钱!  文中数据来源于Stack Overflow 的提问标签,且相同的标签提问次数都不少于10000次。  快速增长的技术  走向灭亡的技术  很明显的看出Swift 和 Angular式增长最快的语言,背后原因是因为Swift背后亲爹Apple大力加持,和苹果独有的生态体系,作为Objectiv...

2019-05-04 15:19:55 3226 5

原创 Hadoop和Spark之间有什么区别,现工业界都在使用何种技术?

 谈到大数据,相信大家对hadoop和Apache Spark这两个名字并不陌生。然而,最近业界有一些人正在大张旗鼓的宣扬Hadoop将死,Spark将立。他们究竟是危言耸听?哗众取宠?还是眼光独到堪破未来呢?与Hadoop相比,Spark技术如何?现工业界大数据技术都在使用何种技术?如果现在想要参加大数据培训的话,应该从哪一种开始呢?  (1)先说二者之间的区别吧。  首先,Hadoop与Sp...

2019-05-04 15:18:09 2891 2

原创 大数据的强大你知道多少

大数据的作用在于在庞大的全量数据的基础上,通过算法模型,得出有意义的结果,进而进行资源配置的优化、现象的发现、未来的预测等。  长话短说,让我们用实例来告诉你大数据有多么的强大。  今日头条:很多数据都是别人家的,怎么搞来的?抓取来的,新郎家的军事列表给怕去来的,通过数据分析的方式把正文抽取出来进行分析,统计分析进行排除。放在今日头条,用户点击就开始产生访问后台服务器就有日志了,请求有点击有暂...

2019-05-04 15:12:27 3389 3

原创 你需要了解关于Hadoop与大数据的12个事实

事实1:hadoop是由多个产品组成的。  人们在谈论Hadoop的时候,常常把它当做单一产品来看待,但事实上它由多个不同的产品共同组成。  Russom说:“Hadoop是一系列开源产品的组合,这些产品都是Apache软件基金会的项目。”  一提到Hadoop,人们往往将其与MapReduce放在一起,但其实HDFS和MapReduce一样,也是Hadoop的基础。...

2019-05-04 15:11:36 2740 2

原创 10个最佳的大数据处理编程语言

 在巨大的数据集中进行筛选的最好工具是什么?通过和数据骇客的交流,我们知道了他们用于硬核数据分析最喜欢的语言和工具包。  R语言  在这些语言名单中,如果R语言排第二,那就没其他能排第一。自1997年以来,作为昂贵的统计软件,如Matlab和SAS的免费替代品,它渐渐风靡全球。  在过去的几年时间中,R语言已经成为了数据科学的宠儿——数据科学现在不仅仅在书呆子一样...

2019-05-04 15:10:35 17567 7

原创 大数据、人工智能、机器人的血缘关系?

 大数据、人工智能(AI)、机器人、算法、深度学习、物联网、传感器……,这些名词似乎每天都会看到或听到,当人们还搞不清楚是什么时,媒体已不断报导人类的工作将很快被取代,让人们愈来愈焦虑。  我跟大家有一样的疑惑,但是信息科学始终对我有份致命的吸引力。可能因为我的第一份工作,是当了4年的程序设计师。去年,我才毅然放下工作,去美国加州大学进修大数据预测科学。因为长期从事品牌营销与消费者沟通,...

2019-05-04 15:09:33 3516

原创 大数据为何这么重要

毫无疑问,各行各业因为大幅爆发的数据而正变得蒸蒸日上。在这10年中,几乎所有行业都或多或少的受到这一巨变的影响。科技渗透到各个领域,并且已经成为每个处理单元的必要元素。谈到IT行业,具体来说,软件和自动化是最基本的术语,并且用于处理循环的每个阶段。相较于稳定性而言,企业更关心的是敏捷性和创新性,通过大数据技术,可以帮助公司及时实现这一愿望。大数据分析不仅使企业能够跟随瞬息万变的潮流而不断更新,...

2019-05-03 20:44:58 2616

原创 大数据应用须解决三大关键点

大数据贵在应用。当前,在国家层面,国务院出台《促进大数据发展行动纲要》;在地方层面,大数据被作为区域发展战略引擎;在企业层面,各类大数据概念公司方兴未艾、蓬勃发展。我们独关注大数据应用,关注数据从哪里来、数据怎么用、成果谁买单,也就是数据来源、产品化和价值创造三个关键点。一个好的大数据应用,从技术上可能很复杂,但从业务模式上应当简单、直白、管用。我们还关注,是否存在若干"数据密集型"行业或领...

2019-05-03 20:43:00 4693

原创 大数据架构师必读:常见的七种Hadoop和Spark项目案例

如果您的Hadoop项目将有新的突破,那么它必定与下边介绍的七种常见项目很相像。有一句古老的格言是这样说的,如果你向某人提供你的全部支持和金融支持去做一些不同的和创新的事情,他们最终却会做别人正在做的事情。如比较火爆的Hadoop、Spark和Storm,每个人都认为他们正在做一些与这些新的大数据技术相关的事情,但它不需要很长的时间遇到相同的模式。具体的实施可能有所不同,但根据我的经验,它们是最常...

2019-05-03 20:41:37 2597

原创 什么是大数据及其背后的关键技术

我们每天都在吃饭,睡觉,工作,玩耍,与此同时产生大量的数据。根据IBM调研的说法,人类每天生成2 5亿(250亿)字节的数据。 这相当于一堆DVD数据从地球到月球的距离,涵盖我们发送的文本、上传的照片、各类传感器数据、设备与设备之间的通信的所有信息等。分析大量数据只是使大数据与以前的数据分析不同的部分原因之一。让我们来从下面三个方面看看。我们每天都在吃饭,睡觉,工作,玩耍,与此同时产生大量的数...

2019-05-03 20:39:51 6100 3

原创 大数据平台架构技术选型与场景运用

一、大数据平台大数据在工作中的应用有三种:与业务相关,比如用户画像、风险控制等;与决策相关,数据科学的领域,了解统计学、算法,这是数据科学家的范畴;与工程相关,如何实施、如何实现、解决什么业务问题,这是数据工程师的工作。数据工程师在业务和数据科学家之间搭建起实践的桥梁。本文要分享的大数据平台架构技术选型及场景运用偏向于工程方面。对大数据以及人工智能概念都是模糊不清的,该按照...

2019-05-03 20:37:49 3597

原创 程序员需要关注的十个大数据技术

1. hadoop ——高效、可靠、可伸缩,能够为你的数据存储项目提供所需的YARN、HDFS和基础架构,并且运行主要的大数据服务和应用程序。2. Spark ——使用简单、支持所有重要的大数据语言(Scala、Python、Java、R)。拥有强大的生态系统,成长迅速,对 microbatching/batching/SQL支持简单。Spark能更好地适用于数据挖掘与机器学习等需要迭代的Ma...

2019-05-03 20:36:19 2440

原创 大数据知识全了解

现在市面上的大数据产品太多了,但它们还远远没达到像 IaaS 层那样的标准化程度,每个产品之间的差别也并不是特别明确清晰。很多企业在做大数据平台或大数据方案的时候,常常不知道该选用哪些产品来满足自己的需求。一般的做法是做调研、学习、搭环境、测试、做各种产品的集成,但 通常这个过程会很漫长,成本也很高。我们希望这些事情都交给云平台来做,云上所有的产品都可以一键部署、一键伸缩,不论是加节点还是减节...

2019-05-03 20:34:57 2670

原创 分布式计算开源框架Hadoop的简单介绍以及在实际中的运用

在SIP项目设计的过程中,对于它庞大的日志在开始时就考虑使用任务分解的多线程处理模式来分析统计,在我从前写的文章《Tiger Concurrent Practice —日志分析并行分解设计与实现》中有所提到。但是由于统计的内容暂时还是十分简单,所以就采用Memcache作为计数器,结合MySQL就完成了访问控制以及统计的工作。然而未来,对于海量日志分析的工作,还是需要有所准备。现在最火的技术词汇莫...

2019-05-03 20:33:47 3859

原创 大数据行业揭秘:AI工程师真的能拿到百万年薪吗?

近年来,人工智能技术在各行各业中的应用越来越普及,相关专业技术人才也是供不应求,各大公司或是创业公司不惜重金招募AI人才。最近一项统计显示,人工智能相关职位平均年薪达到30万元-60万元,从业时间长的甚至能达到年薪百万。对大数据以及人工智能概念都是模糊不清的,该按照什么线路去学习,学完往哪方面发展,想深入了解,想学习的同学欢迎加入大数据学习qq群:458345782,有大量干货(零基础以...

2019-05-03 20:32:10 3798

原创 大数据与云计算、物联网有什么关系?大数据的几种应用前景分析

大数据与云计算  为解决互联网应用对大规模计算能力、数据存储能力的迫切需求,云计算的概念被提出。云计算是一种分布式计算平台,通过虚拟技术将海量的硬件资源和虚拟资源虚拟成虚拟资源池,并根据需求任务的大小,向虚拟资源池获取相应的计算和存储资源。  在大数据处理的需求下,出现了许多优秀的云计算平台,例如Apache开源的Hadoop、 Google的MapReduce、微软的Dryad等。  在处...

2019-05-02 22:00:09 11686

原创 大数据与云计算、物联网有什么关系?大数据的几种应用前景分析

 大数据的几种应用前景分析  大数据与云计算  为解决互联网应用对大规模计算能力、数据存储能力的迫切需求,云计算的概念被提出。云计算是一种分布式计算平台,通过虚拟技术将海量的硬件资源和虚拟资源虚拟成虚拟资源池,并根据需求任务的大小,向虚拟资源池获取相应的计算和存储资源。  在大数据处理的需求下,出现了许多优秀的云计算平台,例如Apache开源的Hadoop、 Google的MapReduce、...

2019-05-02 22:00:04 11615

原创 如何使用HBase?大数据存储的两个实战场景

  HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,适用于结构化的存储,底层依赖于Hadoop的HDFS,利用HBase技术可在廉价PCServer上搭建起大规模结构化存储集群。因此HBase被广泛使用在大数据存储的解决方案中。  为何使用HBase  HBase的优点:  - 列可以动态增加,并且列为空就不存储数据,节省存储空间。  - Hbase自动切分数据,使得数据存...

2019-05-02 21:59:54 1494 5

原创 如何用Python进行大数据挖掘和分析?快速入门路径图!

 大数据无处不在。在时下这个年代,不管你喜欢与否,在运营一个成功的商业的过程中都有可能会遇到它。  什么是 大数据 ?  大数据就像它看起来那样——有大量的数据。单独而言,你能从单一的数据获取的洞见穷其有限。但是结合复杂数学模型以及强大计算能力的TB级数据,却能创造出人类无法制造的洞见。大数据分析提供给商业的价值是无形的,并且每天都在超越人类的能力。  大数据分析的第一步就是要收集数据本身,也...

2019-05-02 21:59:51 6393

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除