- 博客(39)
- 收藏
- 关注
原创 大数据Hadoop之 YARN认识
Yarn是一个分布式的资源管理系统,用以提高分布式的集群环境下的资源利用率,这些资源包括内存、IO、网络、磁盘等。其产生的原因是为了解决原MapReduce框架的不足。最初MapReduce的committer们还可以周期性的在已有的代码上进行修改,可是随着代码的增加以及原MapReduce框架设计的不足,在原MapReduce框架上进行修改变得越来越困难,所以MapReduce的comm...
2019-05-19 19:54:06 372
原创 大数框架Hadoop基础之MapReduce
Map输出的结果将会被序列化到缓冲区中,元数据将被存储在缓冲区中;当Map持续有输出结果时,序列化的缓冲区或者元数据超出了临界值,此时缓冲区中的数据将被排序并写入到磁盘中1.Hadoop集群的配置安装(非安全模式)1.重要的配置文件:(1)Read-only default configuration:core-default.xmlhdfs-default.xmlyarn-d...
2019-05-19 19:52:48 315
原创 什么是Hadoop,怎样学习Hadoop
Hadoop这个名字不是一个缩写,而是一个虚构的名字。该项目的创建者,Doug Cutting解释Hadoop的得名 :“这个名字是我孩子给一个棕黄色的大象玩具命名的。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high thr...
2019-05-19 19:51:42 298
原创 AI,大数据,机器学习三者概念的区分
AI,大数据,机器学习这些概念特别火,一个通用的认识是,AI是行业未来,是下一个风口,是千亿美元巨头的诞生点。但我不想说,写一篇文章来证明,为什么AI那么重要或者那么有价值,因为这属于正确但完全没用的废话。就好比你说IT行业是巨大的市场方向一样,正确然而并没有卵用。AI并不是最新的东西,只是最新技术发展的确实有点快,很多出色的互联网产品或其他高科技产品多少都要有AI的成分,从游戏里的Boss,...
2019-05-18 14:23:49 1127
原创 大数据零基础入门必须学会的九大技术
Hadoo大数据领域最流行的技术,但并非唯一。还有很多其他技术可用于解决大数据问题。除了Apache Hadoop外,另外9大数据技术也是必须要了解的。1.Apache Flink2.Apache Samza3.Google Cloud Data Flow4.StreamSets5.Tensor Flow6.Apache NiFi7.Druid8.LinkedIn ...
2019-05-18 14:22:23 301
原创 大数据存储:扩展Hadoop的十大要点
数据局部性是指确保大数据集存储在执行分析任务的计算资源附近。对于Hadoop来说,这就意味着管理数据节点(DataNode),而数据节点为MapReduce拥有足够好的性能提供了存储资源。20世纪90年代,每台应用服务器往往都拥有直接连接存储(DAS)。创建存储区域网络(SAN),是为了提供共享的存储池,以获得更大的规模和更高的效率。Hadoop逆转了这股潮流,让DAS重新流行起来。每个Hado...
2019-05-18 14:20:31 646
原创 大数据处理技术你项目选哪一种
数据的计算则是指从大量单一数据点中提取信息和见解的过程。下文将介绍这些框架:仅批处理框架:Apache Hadoop仅流处理框架:Apache StormApache Samza混合框架:Apache SparkApache Flink大数据处理框架是什么?处理框架和处理引擎负责对数据系统中的数据进行计算。虽然“引擎”和“框架”之间的区别没有什么权威的定义,...
2019-05-18 14:19:28 416
原创 Hadoop常见错误及解决办法汇总
我们总结的一系列的关于hadoop的常见错误和解决办法,这些错误都是我们曾经犯过,但现已经纠正过来的。并且证明确实有效。1,错误:java.io.IOException: Incompatible clusterIDs 时常出现在namenode重新格式化之后2014-04-29 14:32:53,877 FATAL org.apache.hadoop.hdfs.server.datano...
2019-05-18 14:17:29 763
原创 大数据行业人士必知10大数据思维原理
大数据思维原理是什么?简单概括为10项原理,当样本数量足够大时,你会发现其实每个人都是一模一样的。一、数据核心原理从“流程”核心转变为“数据”核心大数据时代,计算模式也发生了转变,从“流程”核心转变为“数据”核心。Hadoop体系的分布式计算框架已经是“数据”为核心的范式。非结构化数据及分析需求,将改变IT系统的升级方式:从简单增量到架构变化。大数据下的新思维——计算模式的转变。例...
2019-05-17 16:04:40 544
原创 Hadoop真的适合你吗?
许多公司都在为管理海量数据不断努力。以前,他们都使用数据仓库平台,用这种传统架构在处理来自内部和外部数据源的数据时有很大困难,这些数据的结构和内容类型通常非常多样化,但Hadoop可以对此场景提供帮助。Hadoop是一款分布式处理架构,专门用来处理复杂的海量大数据,处理结构化、非结构化和半结构化数据混杂的场景。Hadoop的部分优势在于,它有许多种开源组件和相关工具,可以完成数据捕获、处理、管...
2019-05-17 16:03:39 281
原创 用Spark进行大数据处理之机器学习篇
作者将讨论机器学习概念以及如何使用sparkMLlib来进行预测分析。后面将会使用一个例子展示Spark MLlib在机器学习领域的强悍。1.引言Spark机器学习API包含两个package:spark.mllib 和spark.ml。spark.mllib 包含基于弹性数据集(RDD)的原始Spark机器学习API。它提供的机器学习技术有:相关性、分类和回归、协同过滤、聚类和数据...
2019-05-17 16:02:39 2015
原创 2 分钟读懂大数据框架Hadoop和Spark的异同
谈到大数据,相信大家对Hadoop和Apache Spark这两个名字并不陌生。但我们往往对它们的理解只是提留在字面上,并没有对它们进行深入的思考,下面不妨跟我一块看下它们究竟有什么异同。解决问题的层面不一样首先,Hadoop和Apache Spark两者都是大数据框架,但是各自存在的目的不尽相同。Hadoop实质上更多是一个分布式数据基础设施: 它将巨大的数据集分派到一个由普通计算机组成...
2019-05-17 16:01:13 493
原创 Spark大数据处理系列之Machine Learning
作者将讨论机器学习概念以及如何使用Spark MLlib来进行预测分析。后面将会使用一个例子展示Spark MLlib在机器学习领域的强悍。Spark机器学习API包含两个package:spark.mllib 和spark.ml。spark.mllib 包含基于弹性数据集(RDD)的原始Spark机器学习API。它提供的机器学习技术有:相关性、分类和回归、协同过滤、聚类和数据降维。s...
2019-05-17 16:00:16 596
原创 如何选择大数据的编程语言
有一个大数据项目,你知道问题领域(problem domain),也知道使用什么基础设施,甚至可能已决定使用哪种框架来处理所有这些数据,但是有一个决定迟迟未能做出:我该选择哪种语言?(或者可能更有针对性的问题是,我该迫使我的所有开发人员和数据科学家非要用哪种语言?)这个问题不会推迟太久,迟早要定夺。当然,没有什么阻止得了你使用其他机制(比如XSLT转换)来处理大数据工作。但通常来说,如今大数据...
2019-05-17 15:58:25 197
原创 利用Ant构建Hadoop高效开发环境
最近Hadoop的研究中,都是利用Mockito来模拟数据进行,下一个阶段需要在Hadoop服务器上做大量的运行进行验证,同时也要为正式使用做准备。今天考虑使用Ant来搭建一个Hadoop的开发和调试环境,不使用hadoop自带的插件。思路如下:1、 利用Ant在开发机器上将代码编译、打包,最终得到可执行的jar包。2、 利用Ant的SSH属性,将jar包传到hadoop服务...
2019-05-14 21:59:58 205
原创 Hadoop开发环境配置(伪分布模式)
安装插件0.20.0下原始的eclispe插件无法使用,需要下载网上改造过的:hadoop-eclipse-plugin-0.20.3-SNAPSHOT.jarcopy到eclispe插件目录,然后重启eclispe。PS:这里出现一个问题,发现在eclispe3.7下插件不会加载,最终删除旧的eclispe,使用新解压的文件解决,可以将旧eclispe插件目录下的文件COPY到新...
2019-05-14 21:59:56 506
原创 Hadoop实例RandomWriter
RandomWriter(随机写)例子利用 Map/Reduce把 数据随机的写到dfs中。每个map输入单个文件名,然后随机写BytesWritable的键和值到DFS顺序文件。map没有产生任何输出,所以reduce没有执行。产生的数据是可以配置的。配置变量如下 名字 默认值 描述 test.randomwrite...
2019-05-14 21:59:54 637
原创 使用Sqoop在HDFS和RDBMS之间导数据
SQOOP是一款开源的工具,主要用于在Hadoop与传统的数据库间进行数据的传递,下面从SQOOP用户手册上摘录一段描述Sqoopis a tool designed to transfer data between Hadoop and relational databases.You can use Sqoop to import data from a relational databa...
2019-05-14 21:59:52 516
原创 Hadoop实例WordCount程序一步一步运行
虽说现在用Eclipse下开发Hadoop程序很方便了,但是命令行方式对于小程序开发验证很方便。这是初学hadoop时的笔记,记录下来以备查。 1. 经典的WordCound程序(WordCount.java),可参见 hadoop0.18文档import java.io.IOException;import java.util.ArrayList;import java.util.I...
2019-05-14 21:59:50 276
原创 Hadoop状态分析系统Chukwa
Apache 的开源项目hadoop, 作为一个分布式存储和计算系统,已经被业界广泛应用。很多大型企业都有了各自基于 hadoop 的应用和相关扩展。当 1000+ 以上个节点的 hadoop 集群变得常见时,集群自身的相关信息如何收集和分析呢?针对这个问题, Apache 同样提出了相应的解决方案,那就是 chukwa。概述chukwa 的官方网站是这样描述自己的: chukwa 是一个...
2019-05-14 21:59:48 316
原创 大象的崛起!Hadoop七年发展风雨录
在互联网这个领域一直有这样的说法:“如果老二无法战胜老大,那么就把老大赖以生存的东西开源吧”。当年Yahoo!与Google还是处在强烈竞争关系时候,招聘了Doug(hadoop创始人),把Google老大赖以生存的DFS与Map-Reduce开源了,开始了Hadoop的童年时期。差不多在2008年的时候,Hadoop才算逐渐成熟。 从初创到现在,Hadoop经过了至少7年的积累,现在的H...
2019-05-14 21:59:47 175
原创 Hadoop的环境搭建和编写一个简单的hadoop job
Hadoop 入门:0hadoop的简要介绍google之所以能够成功,一个重要的技术就是map-reduce。map-reduce是google为大规模的、分布式数据进行处理的一种编程模式。而本文介绍的hadoop是apache的开源map-reduce实现。本文不过多的介绍map-reduce,主要精力放在hadoop的配置和编写一个简单的haoop程序上hadoop服务器...
2019-05-14 21:59:45 567
原创 建立学习用小型Hadoop集群
最近在学习Hadoop,运行了单机模式和伪分布模式后也想尝试一下真正的分布式。于是找了几台闲置的PC准备做个小集群,这些机器都是淘汰下来的Dell optiplex 745/755。1. 安装基本系统找一台机器安装Ubuntu 11.04,内核选server,然后装sun-java-6-jdk,建立hadoop用户,下载hadoop设置环境变量,细节请参考官方文档。一台机器装好以后用clo...
2019-05-14 21:59:42 214
原创 sql server中的任务调度与CPU深入讲解
一. 概述我们知道在操作系统看来, sql server产品与其它应用程序一样,没有特别对待。但内存,硬盘,cpu又是数据库系统最重要的核心资源,所以在sql server 2005及以后出现了SQLOS,这个组件是sqlserver和windows的中间层,用于CPU的任务调度,解决I/O的资源争用,协调内存管理等其它的资源协调工作。下面我来试着讲讲SQLOS下的Scheduler调度管理。...
2019-05-11 21:55:09 640
原创 Sql Server 开窗函数Over()的使用实例详解
利用over(),将统计信息计算出来,然后直接筛选结果集? 1 2 3 4 5 6 7 8 9 10 declare @t table( ProductID int, ProductName varchar(20), ProductType varchar(20...
2019-05-11 21:53:39 2092
原创 MyBatis SQL xml处理小于号与大于号正确的格式
当我们需要通过xml格式处理sql语句时,经常会用到< ,<=,>,>=等符号,但是很容易引起xml格式的错误,这样会导致后台将xml字符串转换为xml文档时报错,从而导致程序错误。这样的问题在iBatiS中或者自定义的xml处理sql的程序中经常需要我们来处理。其实很简单,我们只需作如下替换即可避免上述的错误:原符号 < <...
2019-05-11 21:52:48 582
原创 6个用好大数据的秘诀
秘诀一:目标要明确 就算一个公司拥有再多的数据,也不能代表它就一定会获得商业上的成功。只有真正懂得如何利用大数据,了解到公司利用大数据可以达到什么目标,公司最终才有可能真正成功。在公司在发展过程中往往也会面临诸多选择,也只有目标设定明确了,才能够缩小选择范围聚焦精力去发展。企业应时刻保持头脑清醒,朝着自己定好的目标前进,才有助于公司进行持续长久的良好运作。 不过,Luz...
2019-05-09 17:18:01 352
原创 使用Docker时需要关注的五项安全问题
利用Docker承载大家的关键性任务应用程序时,我们必须对五项重要安全问题加以关注。 通过阅读网上帖子以及浏览相关新闻,大家可能会产生一种先入为主的印象,即Docker天生安全性薄弱且尚不足以被直接引入生产环境。不过实际情况是,虽然我们需要对容器安全性加以高度关注,但只要使用得当,其完全可以成为一套远优于单独使用虚拟机或者裸机的安全、高效生产系统。 要安全地使用Docker...
2019-05-09 17:17:10 420
原创 让大数据为你服务,你需要做些什么
你可能不知道,又有一篇强调大数据好处的重量级报告问世了。谷歌、脸谱网和易趣网等科技巨头都把定制、免费、授权使用的各种技术进行了组合使用,通过结合免费的大数据将内部数据资产进行变现。现在的时代里,最普通的人对大数据也有话要说! 但是,如何组织实施解决方案,使企业能够处理大量数据、释放出大数据的潜能呢? 道阻且长 通常来说,企业高管都会迅速地批准使用大量资金用于大...
2019-05-09 17:16:18 462
原创 大数据Hadoop快速入门教程
大数据1024G数据资料Hadoop是一个由Apache基金会所开发的分布式系统集成架构,用户可以在不了解分布式底层细节情况下,开发分布式程序,充分利用集群的威力来进行高速运算与存储,具有可靠、高效、可伸缩的特点1、Hadoop生态概况Hadoop是一个由Apache基金会所开发的分布式系统集成架构,用户可以在不了解分布式底层细节情况下,开发分布式程序,充分利用集群的威力来进行高速运算...
2019-05-07 22:00:02 252
原创 Hadoop开发过程中所遇到的那些坑
Hadoop开发过程中常见问题即解决方案。在Hadoop开发的过程中,我们总是遇到各种各样的问题,今天就整理总结一下核心内容:1、开发过程中常见问题即解决方案在Hadoop开发的过程中,我们总是遇到各种各样的问题,今天就整理总结一下:万能的解决方案:6个检查+具体日志在Hadoop开发的过程中如果遇到各种异常,首先使用jps命令查看节点的启动是否正常,然后在去查看相关的日志文件...
2019-05-07 22:00:00 1322
原创 基于Hadoop的数据仓库Hive 基础知识
Hive是基于Hadoop的数据仓库工具,可对存储在HDFS上的文件中的数据集进行数据整理、特殊查询和分析处理,提供了类似于SQL语言的查询语言–HiveQL,可通过HQL语句实现简单的MR统计,Hive将HQL语句转换成MR任务进行执行。Hive是基于hadoop的数据仓库工具,可对存储在HDFS上的文件中的数据集进行数据整理、特殊查询和分析处理,提供了类似于SQL语言的查询语言–HiveQ...
2019-05-07 21:59:58 2020
原创 大数据、机器学习和深度学习类命令行工具
CSVKit 是如此神奇!它使用逗号分隔值执行所需的一切。 您可以通过 cvs cut 剪切列,使用 cvsgrip 过滤列,通过 sql2csv 将数据从 Postgresql 提取到 CSV,使用 cols 获取列的子集,并使用 in2cv 将 Excel 转换为CSV。快速工具推荐:1、agate —— Python 数据分析库。agate 原名为 journalism。是针对人...
2019-05-07 21:59:56 1038
原创 Apache Kafka:大数据的实时处理时代
在过去几年,对于 Apache Kafka 的使用范畴已经远不仅是分布式的消息系统:我们可以将每一次用户点击,每一个数据库更改,每一条日志的生成,都转化成实时的结构化数据流,更早的存储和分析它们,并从中获得价值。在过去几年,对于 Apache Kafka 的使用范畴已经远不仅是分布式的消息系统:我们可以将每一次用户点击,每一个数据库更改,每一条日志的生成,都转化成实时的结构化数据流,更早的存储...
2019-05-07 21:59:54 2105
原创 浅谈:Hadoop基础之MapReduce
Map输出的结果将会被序列化到缓冲区中,元数据将被存储在缓冲区中;当Map持续有输出结果时,序列化的缓冲区或者元数据超出了临界值,此时缓冲区中的数据将被排序并写入到磁盘中1.Hadoop集群的配置安装(非安全模式)1.重要的配置文件:(1)Read-only default configuration:core-default.xmlhdfs-default.xmlyarn-d...
2019-05-07 21:59:52 1126
原创 大数据Hadoop生态圈:Pig
Pig最早是雅虎公司的一个基于Hadoop的并行处理架构,后来Yahoo将Pig捐献给Apache的一个项目,由Apache来负责维护,Pig是一个基于 Hadoop的大规模数据分析平台。Pig最早是雅虎公司的一个基于的hadoop并行处理架构,后来Yahoo将Pig捐献给Apache的一个项目,由Apache来负责维护,Pig是一个基于 hadoop的大规模数据分析平台。Pig为复杂的海...
2019-05-07 21:59:50 2004
原创 零基础搭建Hadoop大数据处理环境
由于Hadoop需要运行在Linux环境中,而且是分布式的,因此个人学习只能装虚拟机,本文都以VMware Workstation为准,安装CentOS7,具体的安装此处不作过多介绍,只作需要用到的知识介绍。由于HADOOP需要运行在Linux环境中,而且是分布式的,因此个人学习只能装虚拟机,本文都以VMware Workstation为准,安装CentOS7,具体的安装此处不作过多介绍,只作...
2019-05-07 21:59:48 808
原创 Kafka如何实现每秒上百万的超高并发写入?
Kafka 是高吞吐低延迟的高并发、高性能的消息中间件,在大数据领域有极为广泛的运用。配置良好的 Kafka 集群甚至可以做到每秒几十万、上百万的超高并发写入。那么 Kafka 到底是如何做到这么高的吞吐量和性能的呢?这篇文章我们来详细说一下。页缓存技术 + 磁盘顺序写首先 Kafka 每次接收到数据都会往磁盘上去写,如下图所示:那么在这里我们不禁有一个疑问了,如果...
2019-05-07 21:59:45 1149
原创 大数据零基础如何入门教程
程序员必看大数据教程最全1024G学习资料免费赠送详解,大数据工作者可以施展拳脚的领域非常广泛,从国防部、互联网创业公司到金融机构,到处需要大数据项目来做创新驱动。数据分析或数据处理的岗位报酬也非常丰厚,在硅谷,入门级的数据科学家的收入已经是6位数了(美元)。其实Java工程师转型大数据还是非常建议的,不仅仅是前景和薪资等。技术层面来说,大数据使用的Hadoop(在分布式服务器集群上存储海量数...
2019-05-05 21:59:58 1514 3
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人