大数据框架Hadoop学习-CSDN博客

原创十大数据挖掘知识点

数据挖掘是神马数据挖掘的含义数据挖掘是指有组织有目的地收集数据、分析数据，并从这些大量数据提取出需要的有用信息，从而寻找出数据中存在的规律、规则、知识以及模式、关联、变化、异常和有意义的结构。数据挖掘是一种从大量数据中寻找存在的规律、规则、知识以及模式、关联、变化、异常和有意义的结构的技术，是统计学、数据库技术和人工智能技术等技术的综合。数据挖掘的本质数据挖掘的本质就是寻找出数据...

2019-05-20 21:59:54 721

原创大数据-Hadoop小文件问题解决方案

HDFS中小文件是指文件size小于HDFS上block大小的文件。大量的小文件会hadoop的扩展性和性能带来严重的影响。小文件是如何产生的?动态分区插入数据，产生大量的小文件，从而导致map数量剧增reduce数量越多，小文件也越多，reduce的个数和输出文件个数一致数据源本身就是大量的小文件小文件问题的影响从Mapreduce的角度看，一个文件会启动一个map，...

2019-05-20 21:59:52 1648

Hive是基于Hadoop HDFS分布式文件系统的分布式数据仓库架构。它为数据仓库的管理提供了许多功能：数据ETL(抽取、转换和加载)工具，数据存储管理和大型数据集的查询和分析能力。同时Hive还定义了类SQL的语言(HiveQL)。允许用户进行和SQL相似的操作，它可以将结构化的数据文件映射为一张数据库表，并提供简单的SQL查询功能。还允许开发人员方便的使用Mapper和Reducer操作，...

2019-05-20 21:59:50 276

原创 Hadoop工具如何形成SAP Hana的大数据平台

自2008年以来，SAP Hana一直是领先的数据库管理系统之一。它比许多其他数据库管理解决方案能够更有效地处理数据，主要是因为它可以使用一些最先进的hadoop工具。没有hadoop，大多数SAP Hana数据库将是相对无用的。访问大多数数据集将是困难的，特别是在它们存储原始数据的时候。为什么Hadoop是SAP Hana的骨干迈克尔·考克斯和戴维·埃尔斯沃斯在1997年发表的“数据可视...

2019-05-19 21:59:41 1579

原创大数据专业词汇十四个入门学习必掌握

随着大数据技术的不断提高，大数据应用的不断普及，大数据与各行各业的关系越来越紧密。大数据行业充斥着大量的专业词汇，准确掌握和了解这些词汇的含义，有助于更好的理解大数据，更好地利用大数据技术。以下整理了以数据处理为中心的14个大数据专业词汇，一起来看看吧~~~本地数据库(LDB/Local Data Base)本地数据库是指驻留于运行客户应用程序的机器的数据库。本地数据库位于本地磁盘或局域...

2019-05-19 21:59:39 710

原创全球100款大数据工具汇总

1、 Talend Open Studio是第一家针对的数据集成工具市场的ETL(数据的提取Extract、传输Transform、载入Load)开源软件供应商。Talend的下载量已超过200万人次，其开源软件提供了数据整合功能。其用户包括美国国际集团（AIG）、康卡斯特、电子港湾、通用电气、三星、Ticketmaster和韦里逊等企业组织。2、DYSON探码科技自主研发的DY...

2019-05-19 21:59:00 1117

原创基于HBase的大数据存储的应用场景分析

引言HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，适用于结构化的存储，底层依赖于Hadoop的HDFS，利用HBase技术可在廉价PCServer上搭建起大规模结构化存储集群。因此HBase被广泛使用在大数据存储的解决方案中。为何使用HBaseHBase的优点：列可以动态增加，并且列为空就不存储数据，节省存储空间。Hbase自动切分数据，使得数据存储自动具有...

2019-05-19 21:58:57 460

原创 Hadoop Yarn调度器的选择和使用

Yarn在Hadoop的生态系统中担任了资源管理和任务调度的角色。在讨论其构造器之前先简单了解一下Yarn的架构。一、引言Yarn在Hadoop的生态系统中担任了资源管理和任务调度的角色。在讨论其构造器之前先简单了解一下Yarn的架构。上图是Yarn的基本架构，其中ResourceManager是整个架构的核心组件，它负责整个集群中包括内存、CPU等资源的管理;Appl...

2019-05-19 21:30:55 174

原创 Hadoop大数据部署

Hadoop大数据部署一. 系统环境配置：1. 关闭防火墙，selinux关闭防火墙：systemctl stop firewalldsystemctl disable firewalld设置selinux为disable# cat /etc/selinux/configSELINUX=disabled2. 配置ntp时间服务器# yum -y install nt...

2019-05-18 13:10:08 267

原创 Mapreduce Hadoop流编程入门

待处理文件hello.txt，内容如下：john 91mem 21ave 33sily 42fdk 51ksed 67umkt 75svv 28john 11mem 34ave 33sily 424fdk 2115ksed 7896umkt 5237svv 1238john 111mem 7832ave 6773sily 1234fdk 523ksed...

2019-05-18 13:08:28 147

原创基于Hadoop配置文件的MapReduce数据流优化

Hadoop配置文件设定了Hadoop平台运行时各方面属性。大量实验证明，合理的配置会大大提高Hadoop的性能。在Hadoop-0.19.2版本中，Hadoop配置文件在conf目录下，包括文件hadoop-default.xml和hadoop-site.xml，前者做了默认配置，不允许修改，用户需要配置时可以在后者中设置。Hadoop平台启动时首先加载hadoop-site.xml文件来配置系...

2019-05-18 13:06:49 155

原创掌握方法如何利用Hadoop廉价大数据分析

大数据将成为本年度的云计算。这是必然发生的结果：随着时间的推移，企业产生的数据集已经越来越大了，这些数据包括客户购买偏好趋势、网站访问和习惯、客户审查数据等等；那么您怎样才能把这么大量的数据整理成综合形式呢？传统的商业智能（BI）工具（关系型数据库和桌面数学计算包）在处理企业这么大量的数据时已经有点不够用了。当然，数据分析行业也有开发工具和框架，支持数据研究人员和分析师们挖掘大数据集，并能承受得了...

2019-05-18 13:05:25 306

原创 Hadoop之HBase快速入门

本文解决单机（standlone）运行HBase的故障问题。读者可以快速领略HBase的基本Shell命令。第一步准备软件机器环境：Ubuntu 11.10+JDK1.6下载软件：hbase-0.92.1.tar.gz我的用户名为：cl我的机器名为：thinkpad-zh解压缩hbase：$ tar xzf /home/cl/Downloads/hbase-0.92....

2019-05-18 13:04:13 196

原创 Hadoop配置多个硬盘

在Hadoop的文档里明确提出了不需要使用RAID（见http://wiki.apache.org/hadoop/DiskSetup）。hadoop本身的冗余机制使得RAID的冗余机制变得多余了。并且根据一篇文章《why not use RAID?》的描述：在Yahoo Hadoop Cluster的Benchmark中，测试Gridmix显示使用JBOD相比RAID能提高写性能10%以上。...

2019-05-18 13:01:35 814

原创 Hadoop 创建用户及HDFS权限，HDFS操作等常用Shell命令

sudo addgroup Hadoop#添加一个hadoop组sudo usermod -a -G hadoop larry#将当前用户加入到hadoop组sudo gedit etc/sudoers#将hadoop组加入到sudoer在root ALL=(ALL) ALL后 hadoop ALL=(ALL) ALL修改hadoop目录的权限sudo chown -R larry:h...

2019-05-18 13:00:33 4114

原创大数据Hadoop基础入门

hadoop快速入门，基本上按照里面步骤能快速入门hadoop，但这篇文档是针对hadoop 0.18写的，有些地方还是和hadoop 0.20不同。在文档“伪分布式模式的操作方法”中有下面配置说明：配置使用如下的conf/hadoop-site.xml: <configuration> <property> <na...

2019-05-17 22:27:29 208

原创大数据Hadoop学习Hive入门

基本上根据文档能对hive快速入门。在使用过程中可能会出现以下问题：当执行下面命令时：Java代码$$HIVE_HOME/bin/hive可能会出现Invalid maximum heap size: -Xmx4096m提示。那是因为hive默认Hadoopheap size为4096m。如果出现这个提示，你需要修改hadoop heap size的大小。方法如下...

2019-05-17 22:25:55 414

原创使用Hadoop进行大规模数据的全局排序

Hadoop（某人儿子的一只虚拟大象的名字）是一个复杂到极致，又简单到极致的东西。说它复杂，是因为一个hadoop集群往往有几十台甚至成百上千台low cost的计算机组成，你运行的每一个任务都要在这些计算机上做任务的分发，执行中间数据排序以及最后的汇总，期间还包含节点发现，任务的重试，故障节点替换等等等等的维护以及异常情况处理。谁叫hadoop集群往往都是由一些平民计算机组成，没事儿罢个工什...

2019-05-17 22:24:45 373

原创 Hadoop集群、hive、derby安装部署详细说明

Hadoop集群安装部署1 前言本文档是设想在多台服务器上部署HADOOP的实现过程；2 创建用户建议同个集群中的用户和用户组，都是相同的，以便管理和维护。2.1 生成创建用户的运行角本为不同服务器创建同样的用户和组，创建脚本的目的是让不同服务器可以直接运行此脚本，实现用户创建的过程。用root用户登录linux，运行命令：[roo...

2019-05-17 22:13:36 297

原创 Hadoop完全分布式配置

环境：CentOS5、Hadoop0.20.203、jdk1.6.0_29namenode:centos1(ip:192.168.1.101)datanode:centos2(ip:192.168.1.103)、centos3(ip:192.168.1.104)配置步骤：（1）配置NameNode和DataNode修改每台机器的/etc/hosts(包括namenode和dat...

2019-05-16 20:46:45 215

原创 Hadoop海量put时出现的socket超时导致put失败解决方案

当一个HDFS系统同时处理许多个并行的put操作，往HDFS上传数据时，有时候会出现dfsclient 端发生socket 链接超时的报错，有的时候甚至会由于这种原因导致最终的put操作失败，造成数据上传不完整。log类似如下：All datanodes *** are bad. Aborting...类似这样的错误，常常会在并行的put操作比较多，比如 60-80个，每个put的数...

2019-05-16 20:42:16 986

原创 Hadoop集群网络性能优化：Hadoop机架感知实现及配置

分布式的集群通常包含非常多的机器，由于受到机架槽位和交换机网口的限制，通常大型的分布式集群都会跨好几个机架，由多个机架上的机器共同组成一个分布式集群。机架内的机器之间的网络速度通常都会高于跨机架机器之间的网络速度，并且机架之间机器的网络通信通常受到上层交换机间网络带宽的限制。具体到Hadoop集群，由于hadoop的HDFS对数据文件的分布式存放是按照分块block存储，每个block...

2019-05-16 20:41:07 509

原创 Hadoop namenode启动过程详细剖析及瓶颈分析

NameNode中几个关键的数据结构FSImageNamenode会将HDFS的文件和目录元数据存储在一个叫fsimage的二进制文件中，每次保存fsimage之后到下次保存之间的所有hdfs操作，将会记录在editlog文件中，当editlog达到一定的大小（bytes，由fs.checkpoint.size参数定义）或从上次保存过后一定时间段过后（sec，由fs.checkpoint....

2019-05-16 20:39:36 250

原创 Hadoop中的集群配置和使用技巧

这里主要重点说一下集群配置运行的过程。环境7台普通的机器，操作系统都是Linux。内存和CPU就不说了，反正Hadoop一大特点就是机器在多不在精。JDK必须是1.5以上的，这个切记。7台机器的机器名务必不同，后续会谈到机器名对于MapReduce有很大的影响。部署考虑正如上面我描述的，对于Hadoop的集群来说，可以分成两大类角色：Master和Slave，前者主要配置NameN...

2019-05-16 20:36:29 135

原创设置Hadoop各个应用的内存

NameNode、Jobtracker、Datanode、Tasktracker设置conf/Hadoop-env.sh修改HADOOP_HEAPSIZE值，默认为1000MB，标题中四个应用将使用相同的配置。如果希望每个应用不一样，可以修改"conf/hadoop-env.sh"中"HADOOP_XXX_OPTS"，举例比如希望修改NN的Head Size最大值，通过如下语句：exp...

2019-05-16 20:35:11 575

原创大数据分析时代：Hadoop MapReduce

当Yahoo宣布成立新公司Hortonworks接手Hadoop服务之后，业内的目光再次集中到这家大型互联网公司，而这一次的关键字是“大数据”。　　在波士顿举行的Enzee Univers 2011大会上，厂商、分析师以及咨询师认为目前大数据技术已经在企业软件中占据了一席之地。无论目前结构化数据还是非结构化数据，它们在深度与广度上都飞速地增长着，企业能否有效管理并挖掘利用这些数据将决定信息化建...

2019-05-16 20:34:12 309

原创 Hadoop笔记之安装及伪分布式模式配置

Hadoop推荐的是Linux环境。Windows环境只能作为开发环境，而不能作为生产环境。准备工作首先确保Java环境的安装，并确保JAVA_HOME环境变量指向了一个Java安装。Ubuntu下可以sudo apt-get install sun-java6-jdk通过运行“java -version”命令查看是否配置成功。接着在这里下载一个稳定版的hadoop，目前最新的版...

2019-05-16 20:32:01 154

原创 Hadoop集群搭建(Hadoop)

首先说一下配置环境：三台电脑192.168.30.149 Hadoop149 namenode和jobtracker ###因为149机器稍微好一点192.168.30.150hadoop150datanode和TaskTracker 192.168.30.148hadoop150datanode和TaskTracker配置ssh无需密码登陆：$ssh-ke...

2019-05-16 20:30:00 135

原创 Hadoop集群搭建的常见错误

常见错误整理：1.Hadoop初始化错误INFO org.apache.hadoop.ipc.Client: Retryingconnect to server: uec-fe/16.157.63.10:9000. Already tried 0 time(s). 这种情况对数出现在启动namenode时成功，但是运行job时就会一直连接。通过查看TaskTracker日志...

2019-05-16 20:28:04 964

原创 Hadoop 单机、伪分布式及集群下的运行测试总结

找几个并行框架来测试一下，想用于分布式图像渲染。之前了解过google的GFS和mapreduce,然后听说hadoop不错，试着用了一下。我使用的是hadoop0.20.2版,测试的例子均使用统计单词个数的例子，下面是总结：首先提一下，命令的格式一般为 bin/hadoop (命令所属集) -(具体命令).1.单机模式hadoop支持在单机的情况下，用一个进程以非分布式的方式去...

2019-05-15 11:12:52 420

原创 Hadoop pipes初学笔记

1.安装配置好Hadoop常用命令：hadoop dfs -ls pathhadoop dfs -rmr filehadoop dfs -mkdir pathhadoop dfs -cat file2.找个wordcount程序，命名为wordcount.cpp可以是：http://wiki.apache.org/hadoop/C++WordCount也可以是hadoop安装路径下...

2019-05-15 11:11:09 144

原创 Hadoop伪分布式模式测试(hadoop-0.20.2)

# 配置系统conf/core-site.xml:<configuration> <property> <name>fs.default.name</name> <value>hdfs://localhost:9000</value> </property&g...

2019-05-15 11:10:02 238

原创 Hadoop常见问题及解决办法

1：Shuffle Error: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-outAnswer：程序里面需要打开多个文件，进行分析，系统一般默认数量是1024，（用ulimit -a可以看到）对于正常使用是够了，但是对于程序来讲，就太少了。修改办法：修改2个文件。 /etc/security/limits.confvi /etc...

2019-05-15 11:07:56 707

原创 Hadoop集群的搭建

1.准备阶段（1）在每台机器上安装Ubuntu 10.04（2）增加root 用户 sudo passwd root 输入新的密码（3）在ubuntu 中启动终端，application - assit - terminal（4）配置网络 perfernces -> network connection 配置网络地址 administ...

2019-05-15 11:04:44 172

原创 Hadoop 0.20.2 集群配置

说明：本文档是个人研究配置Hadoop 集群过程后产生的，参考了别人的配置文档，同时结合自己实际的情况，解决遇到的问题后最终配置成功。1准备机器：没有多余机器，安装了vmware7.0 后模拟的 2 台系统，操作系统是 Ubuntu10.10所有的系统必须有相同的用户和密码，这里两个系统都是用hadoop:hadoop 作用户名和密码以下操作均是以hadoop 身份...

2019-05-15 11:02:21 481

原创 HadoopDB安装使用

由于它是在 Hadoop-0.19.x 开发的，因此我还是用 Hadoop-0.19.2 来架设，其中 0.19.2 与 0.20.1 安装上只有些微的差别，在上述文章中的 hadoop-0.20.1/conf/core-site.xml 与 hadoop-0.20.1/conf/mapred-site.xml 的内容，只需改写在 hadoop-0.19.2/conf/hadoop-site.x...

2019-05-15 10:58:44 418

原创 Hadoop---在HDFS集群基础上搭建Map/Reduce集群

1. 硬件：VMWARE 虚拟机 * 4台，256M内存,20G硬盘操作系统：RHEL_64_5.42. 基本软件架构部署：IP地址主机名称目录功能 1. 192....

2019-05-15 10:56:59 144

原创使用Java API操作Hadoop文件

1. 概述2. 文件操作2.1 上传本地文件到Hadoop fs2.2 在hadoop fs中新建文件，并写入2.3 删除hadoop fs上的文件2.4 读取文件3. 目录操作3.1 在hadoop fs上创建目录3.2 删除目录3.3 读取某个目录下的所有文件4. 参考资料接代码下载<1>. 概述hadoop中关于文件操作类基本上...

2019-05-15 10:55:05 620

原创大数据未来五年：Hadoop将推动数据平民化

国联合市场研究(Allied Market Research)机构近日预测，到2020年，Hadoop的市场价值会超过500亿。Hadoop技术发展至今，走过了近九个年头，乘着大数据的东风，它以低廉的存储和快速的处理能力迅速在中小企业蔓延开来。而据联合市场研究预测，五年后，Hadoop会得国联合市场研究(Allied Market Research)机构近日预测，到2020年，Hadoop的市...

2019-05-15 10:53:32 241

原创 Linux下Hadoop集群安装详细步骤

1. 环境的需求(这里虚拟机下CentOS6的安装就不说了) Centos6 + Hadoop-0.21.0.tar2. 服务器的配置(我在这里均为2个CPU,2G内存,100硬盘) 在这里,服务器IP最好是固定的,也就是说,能相互之间用ping命令ping通的IP 建议在公司开发,因为公司有这个条件,我在这里配置了三台datanode,分别为 Datanod...

2019-05-14 15:17:40 544

空空如也

空空如也