- 博客(39)
- 收藏
- 关注
原创 大数据、人工智能、机器人三者区别和关系
大数据、人工智能(AI)、机器人、算法、深度学习、物联网、传感器……,这些名词似乎每天都会看到或听到,当人们还搞不清楚是什么时,媒体已不断报导人类的工作将很快被取代,让人们愈来愈焦虑。我跟大家有一样的疑惑,但是信息科学始终对我有份致命的吸引力。可能因为我的第一份工作,是当了4年的程序设计师。去年,我才毅然放下工作,去美国加州大学进修大数据预测科学。因为长期从事品牌营销与消费者沟通,所以想用一些...
2019-05-19 21:17:09 3672
原创 零基础搭建Hadoop大数据处理环境
由于Hadoop需要运行在Linux环境中,而且是分布式的,因此个人学习只能装虚拟机,本文都以VMware Workstation为准,安装CentOS7,具体的安装此处不作过多介绍,只作需要用到的知识介绍。由于Hadoop需要运行在Linux环境中,而且是分布式的,因此个人学习只能装虚拟机,本文都以VMware Workstation为准,安装CentOS7,具体的安装此处不作过多介绍,只作需...
2019-05-19 21:15:48 506
原创 大数据入门学习之Hadoop初识篇
开源的数据分析平台,解决了大数据(大到一台计算机无法进行存储,一台计算机无法在要求的时间内进行处理)的可靠存储和处理。适合处理非结构化数据,包括HDFS,MapReduce基本组件与扩展组件Pig、Hive、Hbase、Sqoop、Flume、ZooKeeper和Spark等。hadoop介绍 (直奔主题)开源的数据分析平台,解决了大数据(大到一台计算机无法进行存储,一台计算机无法在要求的时间...
2019-05-19 21:14:41 478
原创 8个最有含金量的云计算和大数据认证
当下与大数据相关的认证数量正迅速提升,小编为您甄选了5个热门大数据认证:1、CDA数据分析师CDA(Certified Data Analyst),全称“注册数据分析师”,由“CERTIFIEDDATA ANALYST INSTITUTE(CDA数据分析师协会)”在顺应大数据、云计算的潮流下发起成立的职业简称。旨在加强国内外乃至全球范围内正规化、科学化、专业化的数据分析人才队伍建设,进一步...
2019-05-18 12:20:53 30384 2
原创 云计算和大数据未来发展趋势分析
如果这些思考得到肯定的答案,云计算与时代的发展需求相契合,真正的时代大门就会开启。云服务发展趋势云服务的发展趋势将会是:建立公有云生态圈、私有云共推开源、云安全成关键、政府推动和云保险出现。从产业生态来看,公有云服务商构建了以“我”为主的生态圈,做生态圈已经越来越成为大的公有云服务商的选择。私有云的供应商,走上了一条“抱团取暖,共推开源”的道路。在开源社区,众筹式发展的局面已经基本...
2019-05-18 12:19:56 9537 5
原创 数据太大?你该了解Hadoop分布式文件系统
都很少关注这些数据从哪儿来,我们有没有足够优秀的技术能力处理这些数据。联网设备增加 数据量随之上升网络的发展无疑为我们迎接大数据时代、智能计算时代铺好了路。根据研究公司的预测,全球联网设备正在增加,在部分国家,人均联网设备早已超过2台;如此大量的联网设备和不断提高的网络速度都在让社会的数据量快速增长,智慧城市、平安城市的实现也是以视频监控等视频数据为基础,成为大数据时代的重要组成部分。...
2019-05-18 12:18:55 425
原创 怎样才是学好Hadoop的正确姿势?
大数据现在很火,很多Java工程师,只要有1年以上工作经验的都在学Hadoop准备转型大数据。但是,很多小伙伴自学Hadoop的姿势是错误的,花了很多时间,耗费了很多精力,仍是不得其门。错误的姿势1. 只是利用碎片时间看看文章和视频大家都是在职,利用业余时间学习,确实累,不容易。但是如果你只是想着利用碎片时间,看看视频,看看书,那基本上没戏!技术这个东西,他不是仅仅接受到信息就...
2019-05-18 12:17:46 307
原创 有关大数据的6大误区
这里有6个关于大数据的误区,行业专家将帮助你把真相从虚构的大数据领域中分离出来。1.大数据意味着“很多”数据目前,大数据已经成为一个流行词。但人们通常对它真正的含义还是不清楚。有些人将大数据简单地认为是大量的数据。但是,这并不完全正确,它比这稍微复杂一些。大数据是指一个数据集,无论是结构(如数据表)或非结构化(如元数据从电子邮件)结合的数据,如社会媒体分析或物联网数据,形成一个更大的故事。...
2019-05-18 12:16:48 1123 1
原创 Hadoop Yarn内存资源隔离实现原理-基于线程监控的内存隔离方案
Hadoop Yarn 的资源隔离是指为运行着不同任务的 “Container” 提供可独立使用的计算资源,以避免它们之间相互干扰。目前支持两种类型的资源隔离: CPU 和内存,对于这两种类型的资源, Yarn 使用了不同的资源隔离方案。注:Hadoop Yarn内存资源隔离实现原理-基于线程监控的内存隔离方案,本文以 hadoop-2.5.0-cdh5.3.2 为例进行说明。had...
2019-05-17 11:14:08 939
原创 如何建立一个完整可用的安全大数据平台
要建立一个大数据系统,我们需要从数据流的源头跟踪到最后有价值的输出,并在现有的Hadoop和大数据生态圈内根据实际需求挑选并整合各部分合适的组件来构建一个能够支撑多种查询和分析功能的系统平台。这其中既包括了对数据存储的选择,也涵盖了数据线上和线下处理分离等方面的思考和权衡。此外,没有任何一个引入大数据解决方案的商业应用在生产环境上承担的起安全隐患。1、计算框架篇大数据的价值只有在能指导...
2019-05-17 11:12:17 3925
原创 共筑Spark大数据引擎的七大工具
Spark生态系统众生相Apache Spark不仅仅让大数据处理起来更快,还让大数据处理起来更简单、功能更强大、更方便。Spark并非只是一项技术,它结合了诸多部分,新的功能和性能改进不断添加进来,每个部分都在不断完善之中。本文介绍了Spark生态系统的每个主要部分:每个部分的功能,为什么很重要,是如何发展的,在哪方面不尽如人意,以及可能会往哪个方向发展。Spark Core...
2019-05-17 11:10:57 400
原创 从大数据到Hadoop,Spark,Storm
大数据,官方定义是指那些数据量特别大、数据类别特别复杂的数据集,这种数据集无法用传统的数据库进行存储,管理和处理。大数据的主要特点为数据量大(Volume),数据类别复杂(Variety),数据处理速度快(Velocity)和数据真实性高(Veracity),合起来被称为4V。大数据中的数据量非常巨大,达到了PB级别。而且这庞大的数据之中,不仅仅包括结构化数据(如数字、符号等数据),还包括非结...
2019-05-17 11:09:48 451
原创 大数据:Hadoop族群介绍
大数据是支持一系列技术(如各种Hadoop项目、NoSQL产品,甚至MPP数据库系统)的术语,它通过驱动更好的分析和从数据中获得有价值的信息为世界各地的组织机构极大地降低了成本,同时提供了新的见解和产品。大数据是支持一系列技术(如各种Hadoop项目、NoSQL产品,甚至MPP数据库系统)的术语,它通过驱动更好的分析和从数据中获得有价值的信息为世界各地的组织机构极大地降低了成本,同时提供了新的见...
2019-05-17 11:08:51 461
原创 大数据是什么?多大的数据叫大数据?
很多没有接触过大数据的人,都很难清楚地知道,究竟多大的数据量才可以称之为大数据。那么,根据数据收集的端口,企业端与个人端之间,大数据的数量级别是不同的。大数据是什么?多大的数据叫大数据?很多没有接触过大数据的人,都很难清楚地知道,究竟多大的数据量才可以称之为大数据。那么,根据数据收集的端口,企业端与个人端之间,大数据的数量级别是不同的。企业端(B端)数据近十万的级别,就可以称为大数...
2019-05-17 11:06:38 15519 1
原创 关于大数据的15个事实和真相
每个人都在谈论大数据,从年度支出的挑战,到创造就业机会,甚至大数据项目所需的工具。很多人相信大数据能帮助企业做出更好的决策——的确,十个高管中有八个同意或强烈同意这种说法”如果我们能够利用我们所有的数据,我们将会有一个更强大的业务。”跟踪大数据趋势,研究和统计数据为专业人士提供了一个规划大数据项目的坚实基础。Webopedia编制了这些重要的大数据的事实和数据,成为每个专业人士都应该知道的...
2019-05-17 11:04:23 609
原创 Kafka在大数据生态系统中的价值
近几年, Apache Kafka的应用有了显著的增长。Kafka最新的客户包括Uber, Twitter, Netflix, LinkedIn, Yahoo, Cisco, Goldman Sachs 等。Kafka是个高可扩展的生产消费者系统。利用Kafka系统,用户可以发布大量的消息, 同时也能实时订阅消费消息。本文旨在说明Kafka如何在大数据生态系统中扮演越来越重要的角色。以不变应万...
2019-05-17 11:03:43 1204
原创 不同Hadoop上的SQL数据库引擎如何适配BI工作
Hadoop上的SQL引擎Impala是一种新型查询系统基准,发现Spark和Hive在BI的工作负载中有自己的优势与弱势。根据最新的基准,三个主要的SQL-on-Hadoop引擎,Apache Impala 2.3, Apache Spark 1.6 和Apache Hive 1.2,都有各自独特的优势和劣势,这令他们能很好的适应一些BI用例,而不是其他智能。“一个引擎是无法满足所有需求...
2019-05-17 11:02:57 378
原创 计算与大数据 人工智能有啥区别?
对于认知计算而言,洞察和预测只是其中的一种。但是,认知计算更为强调人和机器之间自然的交互,这些维度都不是传统的大数据分析所强调。认知计算是通过与人的自然语言交流及不断地学习,从而帮助人们做到更多的系统,是从硬件架构到算法策略、从程序设计到行业专长等多个学术领域的结合,能够使人们更好地从海量复杂的数据中获得更多洞察,从而做出更为精准的决策。在IBM,我们把它简化归纳为,具备规模化学习、根据目...
2019-05-17 11:02:16 2113
原创 如何将大数据变成为“智能数据”
在过去,我们的数据来源主要靠问券调查;在现在的互联网时代,电商平台、移动互联网、社交平台等网络平台都会产生大量的数据,当这些数据达到一定程度时,我们称之为大数据通过挖掘分析,我们能够将其有价值的东西进行利用;在未来,智能数据可以帮助我们了解一个智能系统每时每刻发生了什么,更能够告诉我们为什么会发生。甚至还可以告诉我们接下来会发生什么,以及我们应该如何应对。智能数据将改变企业的商业模式。大部分专...
2019-05-14 10:41:20 1111
原创 Hadoop让人讨厌的12件事
Hadoop的框架最核心的设计就是:HDFS和MapReduce.HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。是之成为大数据开发人员的比用工具之一,但是,长时间的使用Hadoop,你就会发现有那么一些事情真的影响了Hadoop的易用性。文章作者Andrew C. Oliver是一位专业的软件顾问,同时还是北卡罗来纳州达勒姆大数据咨询公司Open Sof...
2019-05-14 10:39:59 530
原创 大数据、云计算、物联网三者的关系
是全球知名咨询公司麦肯锡最早提出的,麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”《互联网进化论》一书中提出“互联网的未来功能和结构将于人类大脑高度相似,也将具备互联网虚拟感觉,虚拟运动,虚拟中枢,虚拟记忆神经系统” ,并绘制了一幅互联网虚拟大脑结构图。根据这一观点...
2019-05-14 10:38:47 12750
原创 云计算、大数据时代带来的IT业变革
IT巨头抱团取暖:EMC与惠普戴尔等商讨合并交易据《华尔街日报》报道,数据存储解决方案巨头EMC,在股东施压及长期CEO即将退休的双重压力下,正考虑与竞争对手展开合并交易。EMC展开合并谈判的还有戴尔。目前尚不清楚双方的谈判进展。而仅考虑戴尔如今的规模,该公司不太可能会全盘收购EMC,后者可能将部分资产向前者出售,其中亦会包括核心存储业务。为EMC战略发展选择进行评估的银行为摩根大通。...
2019-05-14 10:37:50 1064
原创 大数据价值的“是”与“非
虽然大数据并非固定资产,其价值现在也很难用货币估值进行衡量。但可以毫不夸张的说,在新经济环境下,未来大数据也将和专利以及商标版权一样,成为企业重要的“无形资产”。据报道,费城联邦储备银行经济学家伦纳德•纳卡穆拉(Leonard Nakamura)就曾表示,企业拥有的数据,以及专利、商标和版权等“无形资产”的价值超过8万亿美元(约合人民币491264亿元),相当于德国、法国和意大利的GDP(国内生产...
2019-05-14 10:36:52 386
原创 Hadoop是大数据应用落地难的罪魁祸首?
业内对此广有共识。“我们在全球有7900家用户,在亚太有1000家以上的用户,在中国有150家用户,这些用户的应用都是落地的。” Splunk 中国区销售总监侯海龙说。为什么大数据应用落地难?很大一部分原因在于Hadoop,用户对于开源总有兴趣亲自尝试一下。但无论Map/Reduce,还是YARN都不是那么简单易用,数据建模就像一座山,横亘在用户的前面,让应用不容易落地。对于互联网...
2019-05-14 10:35:38 402
原创 大数据仍未攻克的五大世界性难题
尽管计算性能、存储容量以及分析技术一直在不断进步,某些现实挑战对于大数据而言仍然过于庞大以至于无法应对。在今天的文章中,我们将探讨五个此类难题 ——看看如何才能将其解决。如果大数据能够在传统领域之外进一步解决世界性难题,结果会怎么样?到目前为止,IBM、谷歌以及惠普等巨头级企业已经开始对这类高难度挑战发 起冲击,其中包括分析繁忙的高速公路上到底会有多少车辆通过某条桥梁,或者计算会有多少用户查看...
2019-05-14 10:33:58 1488
原创 如何系统学习Java大数据,自学怎么样?
程序员有两种,一种是会JAVA的,一种是不会Java的,今天我们不去说哪种开发语言好,哪种又不好,因为语言只是一种工具而已,大部分有开发经验的程序员最后都会接触到Java,因为它的应用太广泛了,根据数据显示,占据份额最大的是后端,其大部分是由JAVA制作的。其次是企业级的应用,大部分的该应用都是基于网页的,那也就是由Java编写的。第三的是移动应用客户端,如果是安卓的系统,那又是由java编写而成...
2019-05-11 13:48:23 503
原创 为什么Java大数据是最火爆的编程语言?
未来10年将是大数据,人工智能爆发的时代,到时将会有大量的企业需要借助大数据,而Java最大的优势就是它在大数据领域的地位,目前很多的大数据架构都是通过Java来完成的。在这个Android、iOS相继没落,PHP相继饱和的时候,只有Java大数据保持着旺盛的需求。那么,Java大数据需要学习什么技术呢?首先我们要学习Java语言和Linux操作系统。很多人入门编程语言就是Java,你或许...
2019-05-11 13:46:50 313
原创 Java大数据你该学哪个
1、关于JavaJava就是一门编程语言。实现同一个需求有上百种编程语言可以完成,Java之于大数据就是一种工具罢了。2、关于大数据大数据就是一个行业,实现同一个需求同样有多种工具可以选择,狭义一点以技术的角度讲,各类框架有Hadoop,spark,storm,flink等,就这类技术生态圈来讲,还有各种中间件如flume,kafka,sqoop等等 ,这些框架以及工具大多数是用Jav...
2019-05-11 13:45:38 511
原创 大数据与Java的关系
随着2017年大数据各种应用的发展,大数据的价值得以充分的发挥,大数据已在企业、社会各个层面都成为重要的手段,数据已成为新的企业战略制高点,也是各个企业争夺的新焦点。那么我们一直在说着的大数据究竟是什么呢?为什么提到大数据的时候会经常提到Java java与大数据究竟有什么关系呢?1、关于大数据大数据是互联网发展到现今阶段的一种表象或特征而已,没有必要神话它或对它保持敬畏之心,在以云计算为...
2019-05-11 13:44:37 4358
原创 化繁为简 部署Hadoop有妙招
Hadoop一直为采用大数据的企业祝福并诅咒着。Hadoop功能强大,却非常复杂,这使得很多企业都宁愿等待更容易的东西问世,再推出大数据项目。 等待已经结束。Hadoop在稳步前进,来自诸如Hortonworks和Cloudera等厂商显着的易用性增强,使得Hadoop的学习曲线已经减少了一半。企业正越来越多拥抱大数据和Hadoop,目的是从基本的ETL工作负载迁移到先进的数据分析。...
2019-05-11 12:58:47 181
原创 Hadoop处理大数据的五大优势
作为一个全新的开源项目,Hadoop提供了一中新的方式用来存储和处理器数据。大型的互联网公司,如谷歌、Facebook都使用Hadoop来存储和管理它们庞大的数据集。Hadoop也通过在这些领域的应用证明了其五大优势:高可扩展性Hadoop是一个高度可扩展的存储平台,因为他可以存储和分发横跨数百个并行操作的廉价的服务器数据集群。不同于传统的关系型数据库系统不能扩展到处理...
2019-05-10 22:00:15 4813
原创 Hadoop崛起对数据仓库有多大的影响
在过去三年,Hadoop生态系统已经大范围扩展,很多主要IT供应商都推出了Hadoop连接器,以增强Hadoop的顶层架构或是供应商自己使用的Hadoop发行版。鉴于Hadoop的部署率呈指数级的增长,以及其生态系统不断地深入而广泛地发展,我们很想知道Hadoop的崛起是否会导致传统数据仓库解决方案的终结呢。 我们也可以将这个问题放到一个更大的环境中去讨论:在何种程度上,大数据...
2019-05-10 22:00:13 331
原创 大数据热门岗位的薪资看为大数据未来
最热门的十大大数据工作职位(年薪): 一、ETL开发者(11-13万美元) 随着数据种类的不断增加,企业对数据整合专业人才的需求越来越旺盛。ETL开发者与不同的数据来源和组织打交道,从不同的源头抽取数据,转换并导入数据仓库以满足企业的需要。 ETL软件行业相对成熟,相关岗位的工作生命周期比较长,通常由内部员工和外包合同商之间通力完成。ETL人才在大数据时代炙手可热...
2019-05-10 22:00:10 488
原创 Hadoop到底是什么玩意?
看上去很幼齿很科普,但实际上那些天天观赏大数据演讲的管理层技术小白来说,他们永远不会公开问出这个问题。 大数据是个铺天盖地的词,而谈论大数据又不可避免地要提到Hadoop,遗憾的是今天大多数大数据鼓吹者,甚至专业人士其实并不能说清楚Hadoop到底是什么玩意,以及有何功用,而他们的管理层小白听众更是一头雾水。 众所周知,Hadoop是Apache软件基金会管理的开源软件平台...
2019-05-10 22:00:08 354
原创 大数据架构下的存储考量
根据Toigo Partners International的CEO和负责人、数据管理协会(Data Management Institute)的主席Jon Toigo所言,人们过去认为大数据分析指挖掘大量数据以发现特定的信息这一过程,但是现在这个词更常用于一个更广的含义,泛指不断增长中的大量数据。 Toigo认为对象存储是成功实现大数据架构的最佳方式之一,因为它允许存储管理的粒度分...
2019-05-10 22:00:06 260
原创 Hadoop虽然强大,但不是万能的
随着Hadoop应用的不断拓展,使很多人陷入了对它的盲目崇拜中,认为它能解决一切问题。虽然Hadoop是一个伟大的分布式大型数据计算的框架,但Hadoop不是万能的。比如在下面这几种场景就不适合使用Hadoop:1、低延迟的数据访问Hadoop并不适用于需要实时查询和低延迟的数据访问。数据库通过索引记录可以降低延迟和快速响应,这一点单纯的用Hadoop是没有办...
2019-05-10 22:00:04 420
原创 大数据时代,看“小数据”如何支持决策
大数据被炒得火热,“小数据”的重要性也不能忽视,“小数据”并不是说数据量小,而是指有针对性的、可用于支持决策的高质量数据,不需要复杂的算法、昂贵的硬件、高额的费用,任何组织、企业甚至个人都可以实现对“小数据”的分析和管理。学会简单的算法,利用好“小数据”,人人都可以成为“数据科学家”。全球著名咨询公司Booz & Company合伙人David Meer为我们解读“小数据”的妙用。...
2019-05-10 22:00:02 832
原创 六个超大规模Hadoop部署案例
虽然Hadoop是眼下热闹非凡的大数据领域最热话题,但它肯定不是可以解决数据中心和数据管理方面所有难题的灵丹妙药。考虑到这一点,我们暂且不想猜测这个平台未来会如何,也不想猜测各种数据密集型解决方案的开源技术未来会如何,而是关注让Hadoop越来越火的实际应用案例。案例之一:eBay的Hadoop环境 eBay分析平台开发小组的Anil Madan讨论了这家拍卖行业的巨擘在...
2019-05-10 21:59:58 1258
原创 Hadoop从业者收入超过Oracle DBA
在我们上一次的数据库工程师薪酬调查报告中,OracleDBA的平均收入是最高的,而这一情况在2013年出现了变化。伴随大数据时代的到来,包括Hadoop、NoSQL相关技术的从业人员收入大部分高于平均水平。根据本次调查显示,Hadoop从业者的平均年收入最高,达到134500元;排名第二的NoSQLDBA平均年收入为133648元;而此前收入排名首位的OracleDBA已经降到第三位,...
2019-05-10 21:59:56 297
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人