大数据hadoop-CSDN博客

原创大数据Hadoop之 YARN认识

Yarn是一个分布式的资源管理系统，用以提高分布式的集群环境下的资源利用率，这些资源包括内存、IO、网络、磁盘等。其产生的原因是为了解决原MapReduce框架的不足。最初MapReduce的committer们还可以周期性的在已有的代码上进行修改，可是随着代码的增加以及原MapReduce框架设计的不足，在原MapReduce框架上进行修改变得越来越困难，所以MapReduce的comm...

2019-05-19 19:54:06 466

原创大数框架Hadoop基础之MapReduce

Map输出的结果将会被序列化到缓冲区中，元数据将被存储在缓冲区中；当Map持续有输出结果时，序列化的缓冲区或者元数据超出了临界值，此时缓冲区中的数据将被排序并写入到磁盘中1.Hadoop集群的配置安装（非安全模式）1.重要的配置文件：（1）Read-only default configuration：core-default.xmlhdfs-default.xmlyarn-d...

2019-05-19 19:52:48 382

Hadoop这个名字不是一个缩写，而是一个虚构的名字。该项目的创建者，Doug Cutting解释Hadoop的得名：“这个名字是我孩子给一个棕黄色的大象玩具命名的。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System)，简称HDFS。HDFS有高容错性的特点，并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high thr...

2019-05-19 19:51:42 349

原创 AI，大数据，机器学习三者概念的区分

AI，大数据，机器学习这些概念特别火，一个通用的认识是，AI是行业未来，是下一个风口，是千亿美元巨头的诞生点。但我不想说，写一篇文章来证明，为什么AI那么重要或者那么有价值，因为这属于正确但完全没用的废话。就好比你说IT行业是巨大的市场方向一样，正确然而并没有卵用。AI并不是最新的东西，只是最新技术发展的确实有点快，很多出色的互联网产品或其他高科技产品多少都要有AI的成分，从游戏里的Boss，...

2019-05-18 14:23:49 1252

原创大数据零基础入门必须学会的九大技术

Hadoo大数据领域最流行的技术，但并非唯一。还有很多其他技术可用于解决大数据问题。除了Apache Hadoop外，另外9大数据技术也是必须要了解的。1.Apache Flink2.Apache Samza3.Google Cloud Data Flow4.StreamSets5.Tensor Flow6.Apache NiFi7.Druid8.LinkedIn ...

2019-05-18 14:22:23 357

原创大数据存储：扩展Hadoop的十大要点

数据局部性是指确保大数据集存储在执行分析任务的计算资源附近。对于Hadoop来说，这就意味着管理数据节点(DataNode)，而数据节点为MapReduce拥有足够好的性能提供了存储资源。20世纪90年代，每台应用服务器往往都拥有直接连接存储(DAS)。创建存储区域网络(SAN)，是为了提供共享的存储池，以获得更大的规模和更高的效率。Hadoop逆转了这股潮流，让DAS重新流行起来。每个Hado...

2019-05-18 14:20:31 739

原创大数据处理技术你项目选哪一种

数据的计算则是指从大量单一数据点中提取信息和见解的过程。下文将介绍这些框架：仅批处理框架：Apache Hadoop仅流处理框架：Apache StormApache Samza混合框架：Apache SparkApache Flink大数据处理框架是什么?处理框架和处理引擎负责对数据系统中的数据进行计算。虽然“引擎”和“框架”之间的区别没有什么权威的定义，...

2019-05-18 14:19:28 479

原创 Hadoop常见错误及解决办法汇总

我们总结的一系列的关于hadoop的常见错误和解决办法，这些错误都是我们曾经犯过，但现已经纠正过来的。并且证明确实有效。1，错误：java.io.IOException: Incompatible clusterIDs 时常出现在namenode重新格式化之后2014-04-29 14:32:53,877 FATAL org.apache.hadoop.hdfs.server.datano...

2019-05-18 14:17:29 888

原创大数据行业人士必知10大数据思维原理

大数据思维原理是什么?简单概括为10项原理，当样本数量足够大时，你会发现其实每个人都是一模一样的。一、数据核心原理从“流程”核心转变为“数据”核心大数据时代，计算模式也发生了转变，从“流程”核心转变为“数据”核心。Hadoop体系的分布式计算框架已经是“数据”为核心的范式。非结构化数据及分析需求，将改变IT系统的升级方式：从简单增量到架构变化。大数据下的新思维——计算模式的转变。例...

2019-05-17 16:04:40 646

原创 Hadoop真的适合你吗？

许多公司都在为管理海量数据不断努力。以前，他们都使用数据仓库平台，用这种传统架构在处理来自内部和外部数据源的数据时有很大困难，这些数据的结构和内容类型通常非常多样化，但Hadoop可以对此场景提供帮助。Hadoop是一款分布式处理架构，专门用来处理复杂的海量大数据，处理结构化、非结构化和半结构化数据混杂的场景。Hadoop的部分优势在于，它有许多种开源组件和相关工具，可以完成数据捕获、处理、管...

2019-05-17 16:03:39 384

原创用Spark进行大数据处理之机器学习篇

作者将讨论机器学习概念以及如何使用sparkMLlib来进行预测分析。后面将会使用一个例子展示Spark MLlib在机器学习领域的强悍。1.引言Spark机器学习API包含两个package：spark.mllib 和spark.ml。spark.mllib 包含基于弹性数据集(RDD)的原始Spark机器学习API。它提供的机器学习技术有：相关性、分类和回归、协同过滤、聚类和数据...

2019-05-17 16:02:39 2151

原创 2 分钟读懂大数据框架Hadoop和Spark的异同

谈到大数据，相信大家对Hadoop和Apache Spark这两个名字并不陌生。但我们往往对它们的理解只是提留在字面上，并没有对它们进行深入的思考，下面不妨跟我一块看下它们究竟有什么异同。解决问题的层面不一样首先，Hadoop和Apache Spark两者都是大数据框架，但是各自存在的目的不尽相同。Hadoop实质上更多是一个分布式数据基础设施: 它将巨大的数据集分派到一个由普通计算机组成...

2019-05-17 16:01:13 571

原创 Spark大数据处理系列之Machine Learning

作者将讨论机器学习概念以及如何使用Spark MLlib来进行预测分析。后面将会使用一个例子展示Spark MLlib在机器学习领域的强悍。Spark机器学习API包含两个package：spark.mllib 和spark.ml。spark.mllib 包含基于弹性数据集(RDD)的原始Spark机器学习API。它提供的机器学习技术有：相关性、分类和回归、协同过滤、聚类和数据降维。s...

2019-05-17 16:00:16 679

原创如何选择大数据的编程语言

有一个大数据项目，你知道问题领域(problem domain)，也知道使用什么基础设施，甚至可能已决定使用哪种框架来处理所有这些数据，但是有一个决定迟迟未能做出：我该选择哪种语言?(或者可能更有针对性的问题是，我该迫使我的所有开发人员和数据科学家非要用哪种语言?)这个问题不会推迟太久，迟早要定夺。当然，没有什么阻止得了你使用其他机制(比如XSLT转换)来处理大数据工作。但通常来说，如今大数据...

2019-05-17 15:58:25 265

原创利用Ant构建Hadoop高效开发环境

最近Hadoop的研究中，都是利用Mockito来模拟数据进行，下一个阶段需要在Hadoop服务器上做大量的运行进行验证，同时也要为正式使用做准备。今天考虑使用Ant来搭建一个Hadoop的开发和调试环境，不使用hadoop自带的插件。思路如下：1、利用Ant在开发机器上将代码编译、打包，最终得到可执行的jar包。2、利用Ant的SSH属性，将jar包传到hadoop服务...

2019-05-14 21:59:58 276

原创 Hadoop开发环境配置（伪分布模式）

安装插件0.20.0下原始的eclispe插件无法使用，需要下载网上改造过的：hadoop-eclipse-plugin-0.20.3-SNAPSHOT.jarcopy到eclispe插件目录，然后重启eclispe。PS：这里出现一个问题，发现在eclispe3.7下插件不会加载，最终删除旧的eclispe，使用新解压的文件解决，可以将旧eclispe插件目录下的文件COPY到新...

2019-05-14 21:59:56 576

原创 Hadoop实例RandomWriter

RandomWriter（随机写）例子利用 Map/Reduce把数据随机的写到dfs中。每个map输入单个文件名，然后随机写BytesWritable的键和值到DFS顺序文件。map没有产生任何输出，所以reduce没有执行。产生的数据是可以配置的。配置变量如下名字默认值描述 test.randomwrite...

2019-05-14 21:59:54 760

原创使用Sqoop在HDFS和RDBMS之间导数据

SQOOP是一款开源的工具，主要用于在Hadoop与传统的数据库间进行数据的传递，下面从SQOOP用户手册上摘录一段描述Sqoopis a tool designed to transfer data between Hadoop and relational databases.You can use Sqoop to import data from a relational databa...

2019-05-14 21:59:52 582

原创 Hadoop实例WordCount程序一步一步运行

虽说现在用Eclipse下开发Hadoop程序很方便了，但是命令行方式对于小程序开发验证很方便。这是初学hadoop时的笔记，记录下来以备查。　　1. 经典的WordCound程序（WordCount.java），可参见 hadoop0.18文档import java.io.IOException;import java.util.ArrayList;import java.util.I...

2019-05-14 21:59:50 343

原创 Hadoop状态分析系统Chukwa

Apache 的开源项目hadoop，作为一个分布式存储和计算系统，已经被业界广泛应用。很多大型企业都有了各自基于 hadoop 的应用和相关扩展。当 1000+ 以上个节点的 hadoop 集群变得常见时，集群自身的相关信息如何收集和分析呢？针对这个问题， Apache 同样提出了相应的解决方案，那就是 chukwa。概述chukwa 的官方网站是这样描述自己的： chukwa 是一个...

2019-05-14 21:59:48 378

原创大象的崛起！Hadoop七年发展风雨录

　在互联网这个领域一直有这样的说法：“如果老二无法战胜老大，那么就把老大赖以生存的东西开源吧”。当年Yahoo!与Google还是处在强烈竞争关系时候，招聘了Doug(hadoop创始人)，把Google老大赖以生存的DFS与Map-Reduce开源了，开始了Hadoop的童年时期。差不多在2008年的时候，Hadoop才算逐渐成熟。　　从初创到现在，Hadoop经过了至少7年的积累，现在的H...

2019-05-14 21:59:47 234

原创 Hadoop的环境搭建和编写一个简单的hadoop job

Hadoop 入门：0hadoop的简要介绍google之所以能够成功，一个重要的技术就是map-reduce。map-reduce是google为大规模的、分布式数据进行处理的一种编程模式。而本文介绍的hadoop是apache的开源map-reduce实现。本文不过多的介绍map-reduce，主要精力放在hadoop的配置和编写一个简单的haoop程序上hadoop服务器...

2019-05-14 21:59:45 613

原创建立学习用小型Hadoop集群

最近在学习Hadoop，运行了单机模式和伪分布模式后也想尝试一下真正的分布式。于是找了几台闲置的PC准备做个小集群，这些机器都是淘汰下来的Dell optiplex 745/755。1. 安装基本系统找一台机器安装Ubuntu 11.04，内核选server，然后装sun-java-6-jdk，建立hadoop用户，下载hadoop设置环境变量，细节请参考官方文档。一台机器装好以后用clo...

2019-05-14 21:59:42 294

原创 sql server中的任务调度与CPU深入讲解

一. 概述我们知道在操作系统看来， sql server产品与其它应用程序一样，没有特别对待。但内存，硬盘，cpu又是数据库系统最重要的核心资源，所以在sql server 2005及以后出现了SQLOS，这个组件是sqlserver和windows的中间层，用于CPU的任务调度，解决I/O的资源争用，协调内存管理等其它的资源协调工作。下面我来试着讲讲SQLOS下的Scheduler调度管理。...

2019-05-11 21:55:09 737

原创 Sql Server 开窗函数Over()的使用实例详解

利用over()，将统计信息计算出来，然后直接筛选结果集? 1 2 3 4 5 6 7 8 9 10 declare @t table( ProductID int, ProductName varchar(20), ProductType varchar(20...

2019-05-11 21:53:39 2248

原创 MyBatis SQL xml处理小于号与大于号正确的格式

当我们需要通过xml格式处理sql语句时，经常会用到< ，<=，>，>=等符号，但是很容易引起xml格式的错误，这样会导致后台将xml字符串转换为xml文档时报错，从而导致程序错误。这样的问题在iBatiS中或者自定义的xml处理sql的程序中经常需要我们来处理。其实很简单，我们只需作如下替换即可避免上述的错误：原符号 < <...

2019-05-11 21:52:48 663

原创 6个用好大数据的秘诀

　秘诀一：目标要明确就算一个公司拥有再多的数据，也不能代表它就一定会获得商业上的成功。只有真正懂得如何利用大数据，了解到公司利用大数据可以达到什么目标，公司最终才有可能真正成功。在公司在发展过程中往往也会面临诸多选择，也只有目标设定明确了，才能够缩小选择范围聚焦精力去发展。企业应时刻保持头脑清醒，朝着自己定好的目标前进，才有助于公司进行持续长久的良好运作。　　不过，Luz...

2019-05-09 17:18:01 415

原创使用Docker时需要关注的五项安全问题

利用Docker承载大家的关键性任务应用程序时，我们必须对五项重要安全问题加以关注。　　通过阅读网上帖子以及浏览相关新闻，大家可能会产生一种先入为主的印象，即Docker天生安全性薄弱且尚不足以被直接引入生产环境。不过实际情况是，虽然我们需要对容器安全性加以高度关注，但只要使用得当，其完全可以成为一套远优于单独使用虚拟机或者裸机的安全、高效生产系统。　　要安全地使用Docker...

2019-05-09 17:17:10 490

原创让大数据为你服务，你需要做些什么

　　你可能不知道，又有一篇强调大数据好处的重量级报告问世了。谷歌、脸谱网和易趣网等科技巨头都把定制、免费、授权使用的各种技术进行了组合使用，通过结合免费的大数据将内部数据资产进行变现。现在的时代里，最普通的人对大数据也有话要说!　　但是，如何组织实施解决方案，使企业能够处理大量数据、释放出大数据的潜能呢?　　道阻且长　　通常来说，企业高管都会迅速地批准使用大量资金用于大...

2019-05-09 17:16:18 520

原创大数据Hadoop快速入门教程

大数据1024G数据资料Hadoop是一个由Apache基金会所开发的分布式系统集成架构，用户可以在不了解分布式底层细节情况下，开发分布式程序，充分利用集群的威力来进行高速运算与存储，具有可靠、高效、可伸缩的特点1、Hadoop生态概况Hadoop是一个由Apache基金会所开发的分布式系统集成架构，用户可以在不了解分布式底层细节情况下，开发分布式程序，充分利用集群的威力来进行高速运算...

2019-05-07 22:00:02 298

原创 Hadoop开发过程中所遇到的那些坑

Hadoop开发过程中常见问题即解决方案。在Hadoop开发的过程中，我们总是遇到各种各样的问题，今天就整理总结一下核心内容：1、开发过程中常见问题即解决方案在Hadoop开发的过程中，我们总是遇到各种各样的问题，今天就整理总结一下：万能的解决方案：6个检查+具体日志在Hadoop开发的过程中如果遇到各种异常，首先使用jps命令查看节点的启动是否正常，然后在去查看相关的日志文件...

2019-05-07 22:00:00 1377

原创基于Hadoop的数据仓库Hive 基础知识

Hive是基于Hadoop的数据仓库工具，可对存储在HDFS上的文件中的数据集进行数据整理、特殊查询和分析处理，提供了类似于SQL语言的查询语言–HiveQL，可通过HQL语句实现简单的MR统计，Hive将HQL语句转换成MR任务进行执行。Hive是基于hadoop的数据仓库工具，可对存储在HDFS上的文件中的数据集进行数据整理、特殊查询和分析处理，提供了类似于SQL语言的查询语言–HiveQ...

2019-05-07 21:59:58 2102

原创大数据、机器学习和深度学习类命令行工具

CSVKit 是如此神奇!它使用逗号分隔值执行所需的一切。您可以通过 cvs cut 剪切列，使用 cvsgrip 过滤列，通过 sql2csv 将数据从 Postgresql 提取到 CSV，使用 cols 获取列的子集，并使用 in2cv 将 Excel 转换为CSV。快速工具推荐：1、agate —— Python 数据分析库。agate 原名为 journalism。是针对人...

2019-05-07 21:59:56 1107

原创 Apache Kafka：大数据的实时处理时代

在过去几年，对于 Apache Kafka 的使用范畴已经远不仅是分布式的消息系统：我们可以将每一次用户点击，每一个数据库更改，每一条日志的生成，都转化成实时的结构化数据流，更早的存储和分析它们，并从中获得价值。在过去几年，对于 Apache Kafka 的使用范畴已经远不仅是分布式的消息系统：我们可以将每一次用户点击，每一个数据库更改，每一条日志的生成，都转化成实时的结构化数据流，更早的存储...

2019-05-07 21:59:54 2226

原创浅谈：Hadoop基础之MapReduce

Map输出的结果将会被序列化到缓冲区中，元数据将被存储在缓冲区中；当Map持续有输出结果时，序列化的缓冲区或者元数据超出了临界值，此时缓冲区中的数据将被排序并写入到磁盘中1.Hadoop集群的配置安装（非安全模式）1.重要的配置文件：（1）Read-only default configuration：core-default.xmlhdfs-default.xmlyarn-d...

2019-05-07 21:59:52 1215

原创大数据Hadoop生态圈：Pig

Pig最早是雅虎公司的一个基于Hadoop的并行处理架构，后来Yahoo将Pig捐献给Apache的一个项目，由Apache来负责维护，Pig是一个基于 Hadoop的大规模数据分析平台。Pig最早是雅虎公司的一个基于的hadoop并行处理架构，后来Yahoo将Pig捐献给Apache的一个项目，由Apache来负责维护，Pig是一个基于 hadoop的大规模数据分析平台。Pig为复杂的海...

2019-05-07 21:59:50 2533

原创零基础搭建Hadoop大数据处理环境

由于Hadoop需要运行在Linux环境中，而且是分布式的，因此个人学习只能装虚拟机，本文都以VMware Workstation为准，安装CentOS7，具体的安装此处不作过多介绍，只作需要用到的知识介绍。由于HADOOP需要运行在Linux环境中，而且是分布式的，因此个人学习只能装虚拟机，本文都以VMware Workstation为准，安装CentOS7，具体的安装此处不作过多介绍，只作...

2019-05-07 21:59:48 868

原创 Kafka如何实现每秒上百万的超高并发写入？

Kafka 是高吞吐低延迟的高并发、高性能的消息中间件，在大数据领域有极为广泛的运用。配置良好的 Kafka 集群甚至可以做到每秒几十万、上百万的超高并发写入。那么 Kafka 到底是如何做到这么高的吞吐量和性能的呢?这篇文章我们来详细说一下。页缓存技术 + 磁盘顺序写首先 Kafka 每次接收到数据都会往磁盘上去写，如下图所示：那么在这里我们不禁有一个疑问了，如果...

2019-05-07 21:59:45 1210

原创大数据零基础如何入门教程

程序员必看大数据教程最全1024G学习资料免费赠送详解，大数据工作者可以施展拳脚的领域非常广泛，从国防部、互联网创业公司到金融机构，到处需要大数据项目来做创新驱动。数据分析或数据处理的岗位报酬也非常丰厚，在硅谷，入门级的数据科学家的收入已经是6位数了(美元)。其实Java工程师转型大数据还是非常建议的，不仅仅是前景和薪资等。技术层面来说，大数据使用的Hadoop(在分布式服务器集群上存储海量数...

2019-05-05 21:59:58 1640 3

空空如也

空空如也