大数据之hadoop
文章平均质量分 80
KISSING_hu
这个作者很懒,什么都没留下…
展开
-
hadoop 源码编译
hadoop 源码编译1、下载网址:http://git.apache.org/2、必要软件Maven这个需要注意,不要下载最新3.1.1,而是下载3.0.5,因为3.1.1存在一个bug会带来麻烦。这也是红帽、IBM不采用最新版本的原因吧,号称stable其实存在重大bug。http://jira.codehaus.org/browse/MSI转载 2014-12-17 15:29:46 · 550 阅读 · 0 评论 -
开源云计算技术系列(四)(Cloudera体验篇)
开源云计算技术系列(四)(Cloudera体验篇) Cloudera 的定位在于Bringing Big Data to the Enterprise with HadoopCloudera为了让Hadoop的配置标准化,可以帮助企业安装,配置,运行hadoop以达到大规模企业数据的处理和分析。既然是给企业使用,Cloudera的软件配置不是采用最新的hadoop 0转载 2014-12-22 12:54:21 · 565 阅读 · 0 评论 -
开源云计算技术系列三(10gen)安装配置
开源云计算技术系列三(10gen)安装配置10gen 是一套云计算平台,可以为web应用提供可以扩展的高性能的数据存储解决方案。10gen的开源项目是mongoDB,主要功能是解决website的操作性数据存储,session对象的存储,数据缓存,高效率的实时计数(比如统计pv,uv),并支持ruby,python,java,c++,php等众多的页面语言。MongoD转载 2014-12-22 12:56:32 · 861 阅读 · 0 评论 -
海量Web日志分析
海量Web日志分析 用Hadoop提取KPI统计指标Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flum转载 2014-12-19 17:19:17 · 4223 阅读 · 0 评论 -
Python实现用Hadoop的map/reduce对web日志进行统计
Python实现用Hadoop的map/reduce对web日志进行统计日志格式61.160.241.107 - - [23/Aug/2011:22:00:00 +0800] "GET /map.php?gid=38&sid=75&user=14717213&roleid=490711&time=1314108000&user_yx=736959&levafee11f0d1bacb转载 2014-12-19 17:45:45 · 1144 阅读 · 0 评论 -
Hive导入Apache Nginx等日志与分析
Hive导入Apache Nginx等日志与分析 将nginx日志导入到hive中的两种方法 1 在hive中建表CREATE TABLE apachelog (ipaddress STRING, identd STRING, user STRING,fi转载 2014-12-19 17:52:25 · 695 阅读 · 0 评论 -
HADOOP 处理 NGINX 日志
HADOOP 处理 NGINX 日志 这种统计可以用计数器完成,以下代码没什么业务逻辑,纯属实验 Java代码 package cn.liangc.hadoop.nmr; import java.io.IOException; import java.text.ParseException; import java.t转载 2014-12-19 17:50:34 · 1540 阅读 · 0 评论 -
执行./hdfs dfs mkdir /winter
执行./hdfs dfs mkdir /winter 创建的文件夹不知道存在哪里 我在虚拟机里安装了centos5.X ,然后配置了单机hadoophdfs-site.xml配置如下: dfs.namenode.name.dir f转载 2014-12-19 19:11:56 · 1006 阅读 · 0 评论 -
Mrjob介绍 (hadoop with python)
Mrjob介绍 (hadoop with python)什么是mrjob一个通过hadoop、emr的mapreduce编程接口(streamming),扩展出来的一个python的编程框架。安装先安装python 2.5+版本(对应0.4)线上目前版本:python 2.6.8调度机安装mrjob即可:http://pythonhosted.org/mrj转载 2014-12-20 12:09:25 · 3111 阅读 · 0 评论 -
Hadoop集群安装配置
群部署介绍 1.1 Hadoop简介 Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。以Hadoop分布式文件系统(HDFS,Hadoop Distributed Filesystem)和MapReduce(Google MapReduce的开源实现)为核心的Hadoop为用户提供了系统底层细节透明的分布式基础架构。 对于Hadoop转载 2014-12-18 12:57:09 · 772 阅读 · 0 评论 -
解决Unable to load native-hadoop
Unable to load native-hadoop library for your platform,编译转载▼在运行hadoop的时候,出现警告:WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform… using builtin-java cla转载 2014-12-17 13:57:03 · 2207 阅读 · 0 评论 -
HDFS常用操作
HDFS常用操作 hadoopdfs -ls 列出HDFS下的文件hadoop dfs -ls in 列出HDFS下某个文档中的文件hadoop dfs -put test1.txt test 上传文件到指定目录并且重新命名,只有所有的DataNode都接收完数据才算成功hadoop dfs -get in getin 从HDFS获取文件并且重新命名为getin,同put一转载 2014-12-22 13:18:30 · 663 阅读 · 1 评论