飞奔的小石头-CSDN博客

原创大数据日志分析小例子

1.项目是要对apache日志进行分析2.数据特点：apache log，每天产生一个日志文件3.项目需要对历史日志文件和每天的日志文件进行处理4.处理步骤4.1 把linux上的logs上传到hdfs中4.1.1 当前apache logs与hadoop在同一台服务器，可以直接使用命令上传；上传的命令写在shell脚本中，该脚本区分是一次性上传所有历史日志和每天

2014-03-15 20:31:59 1289

原创 Hive+MySQL的简介

1.Hive是基于hadoop的sql解析引擎。 hive是运行在hadoop之上的。在hive中运行的是sql。sql非常接近mysql的sql语法。在sql中，有数据库、表、字段、类型。2.hiveQL中的数据库、表、字段、类型与hadoop上的文件结构的类比数据库——————————文件夹表————————————文件夹表中数据———————

2014-03-15 20:31:04 783

原创 flume的简单使用

flume是一个分布式的海量数据收集框架。在hadoop0上部署一个flume agent1.把apache-flume-1.4.0-bin.tar.gz和apache-flume-1.4.0-src.tar.gz在hadoop0上解压缩2.把解压缩后的apache-flume-1.4.0-src文件夹中的内容全部复制到apache-flume-1.4.0-bin文件夹中。3.修改

2014-03-15 20:28:59 746

原创 HBase--NoSQL的数据库产品

1、HBase简介HBase – HadoopDatabase，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase利用Hadoop HDFS作为其文件存储系统，利用Hadoop MapReduce来处理HBase中的海量数据，利用Zookeeper作为协调工具。 hbase是bigtable的开源

2014-03-15 20:27:52 796

原创 Pig简单使用

6.Pig是一个利用mapreduce进行计算框架。有自己的一套语法PIG latin，可以非常方便的书写计算代码。7.如何使用pig？解压缩之后，修改文件conf/pig.properties，增加两行内容，如下 fs.default.name=hdfs://hadoop0:9000 mapred.job.tracker=hadoop0:9001 保存退出后，执行b

2014-03-15 20:26:24 729

原创 ZooKeeper--分布式服务框架

1、ZooKeeper简介ZooKeeper 是一个为分布式应用所设计的分布的、开源的协调服务。分布式的应用可以建立在同步、配置管理、分组和命名等服务的更高级别的实现的基础之上。 ZooKeeper 意欲设计一个易于编程的环境，它的文件系统使用我们所熟悉的目录树结构。 ZooKeeper 使用 Java 所编写，但是支持 Java 和 C 两种编程语言。众所周知，协调服务非常容易出错，但是

2014-03-15 20:25:25 896

原创 Hadoop集群的搭建

1、搭建三个节点，命名为hadoop0、hadoop1、hadoop2。其中hadoop0是主节点(NameNode、JobTracker、SecondaryNameNode)，hadoop1、hadoop2是从节点(DataNode、TaskTracker)。2、具体搭建步骤自己配置linux的初始化环境，参见第一天的伪分布操作。 2.1 在ha

2014-03-15 20:24:00 456

原创 MapReduce--分布式计算利器

学习要点：Ø MapReduce 原理★★★Ø MapReduce 执行过程★★Ø 数据类型与格式★★★Ø Writable 接口与序列化机制★★★ 1、MapReduce 是 Hadoop的核心组成,是专用于进行数据计算的。重点掌握实现 MapReduce 算法的步骤，掌握 map、reduce 函数的特点、如何写函数。Python中的map和re

2014-03-15 20:23:13 639

原创 HDFS--分布式存储系统

1、定义就是：分布式文件系统是一种允许文件通过网络在多台主机上分享的文件系统，可让多机器上的多用户分享文件和存储空间。分布式文件管理系统很多，HDFS 只是其中一种。适用于一次写入、多次查询的情况，不支持并发写情况，小文件不合适。 2、hadoop常用shell命令选项。（前期重点掌握 ls(r)、rm(r)、mkdir、put、get）Ctrl+R选择命令（kill-9）-

2014-03-15 20:22:10 1052

原创 hadoop的安装与配置

1、伪分布模式：伪分布模式是在一台机器上模拟分布式部署，方便学习和调试。 2、移动hadoop-1.1.2 到/usr/local 目录下，解压：命令tar -zxvf hadoop-1.1.2.tar.gz ，改名为hadoop 3、配置环境变量和别名(/etc/profile)(不要有空格)alias cdha='cd /usr/local/hadoop

2014-03-15 20:20:46 495

原创 Hadoop的伪分布的配置

1、jdk的安装把jdk移动到/user/local目录下，通过“.”来解压文件，并重命名为简单名称jdk 2、配置环境变量用vi编辑器修改/etc/profile 文件，添加两句话export JAVA_HOME=/usr/local/jdkexport PATH=.:$PATH:$JAVA_HOME/bin保存关闭，执行

2014-03-15 20:19:55 460

原创 Hadoop简介

Hadoop简介：Hadoop开始时是Nutch的一个子项目，而Nutch有事Apache Lucene的一个子项目，三个项目均由Doug Cutting创立，每个项目在逻辑上都是前一个项目的的演进。HDFS架构主从结构主节点，只有一个:namenode从节点，有很多个:datanodesnamenode负责：

2014-03-15 20:19:02 496

u014135240的专栏