云计算(hadoop/vMware)
czp11210
长期专注在车载物联网领域,智慧交通行业;精通C/C++、Java、JavaScript等高级语言;钟情于各种开源技术框架,先后参与过各大航空公司的会员、交易、结算等业务体系开发,主持过移动快速开发平台的建设。
展开
-
hadoop日志分析
前言Web日志包含着网站最重要的信息,通过日志分析,我们可以知道网站的访问量,哪个网页访问人数最多,哪个网页最有价值等。一般中型的网站(10W的PV以上),每天会产生1G以上Web日志文件。大型或超大型的网站,可能每小时就会产生10G的数据量。对于日志的这种规模的数据,用Hadoop进行日志分析,是最适合不过的了。目录Web日志分析概述需求分析:KPI指标设计算法模转载 2014-11-17 23:07:11 · 11681 阅读 · 0 评论 -
用Mahout构建职位推荐引擎
Posted:Oct 24, 2013Tags:HadoopjobMahoutrecommendationComments:13 Comments用Mahout构建职位推荐引擎Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, A转载 2015-11-13 10:09:50 · 809 阅读 · 1 评论 -
从源代码剖析Mahout推荐引擎
从源代码剖析Mahout推荐引擎Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop,转载 2015-11-13 10:07:08 · 1162 阅读 · 0 评论 -
nginx日志每日定时写入Hdfs
#!/bin/bashhadoop_home=/opt/hadoop-2.4.0tw_nginx_home=/var/www/nginx_0cn_nginx_home=/var/www/nginx1current_date=$(date +%Y%m%d)echo "hadoop_home = $hadoop_home"echo "tw_nginx_home = $t原创 2014-12-17 17:01:05 · 2688 阅读 · 0 评论 -
源码级强力分析hadoop的RPC机制
前言: hadoop RPC(Remote Procedure Call Protocol ,远程过程调用协议,它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。可以参考:http://baike.baidu.com/view/32726.htm )机制分析的博客一直耽搁了下来。分析对象: hadoop版本:hadoop 0.20.203.0必转载 2014-12-10 13:59:35 · 1133 阅读 · 0 评论 -
Hadoop MapReduce进阶 使用DataJoin包实现Join
概念:Hadoop有一个叫DataJoin的包为Data Join提供相应的框架。它的Jar包存在于contrib/datajoin/hadoop-*-datajoin。为区别于其他的data join技术,我们称其为reduce-side join。(因为我们在reducer上作大多数的工作)reduce-side join引入了一些术语及概念:转载 2014-12-09 20:10:18 · 532 阅读 · 0 评论 -
hadoop命令介绍
namenode(hdfs)+jobtracker(mapreduce)可以放在一台机器上,datanode+tasktracker可以在一台机器上,辅助namenode要单独放一台机器,jobtracker通常情况下分区跟datanode一样(目录最好分布在不同的磁盘上,一个目录对应一个磁盘),namenode存储目录需要格式化,datanode存储目录不需要格式化,启动时自动创建 同一个d转载 2014-12-08 11:41:00 · 661 阅读 · 0 评论 -
用ganglia监控hadoop
ganglia可以通过JMX来监控hadoop,并生成图形。cacti也可以通过插件,利用JMX,用于监控hadoop。只是目前cacti的监控插件很久没有更新,运行起来很困难,需要多处修改。就算运行起来了,还是和现有hadoop相关产品很多指标不一致,所以不适合使用。 ganglia则在hadoop中原生支持。 [zhouhh@h185 conf]$ pwd/home/zho转载 2014-12-08 11:49:33 · 1215 阅读 · 0 评论 -
Name node is in safe mode
运行hadoop程序时,有时候会报以下错误: org.apache.hadoop.dfs.SafeModeException: Cannot delete /user/hadoop/input. Name node is in safe mode 这个错误应该还满常见的吧(至少我运行的时候是这样的) 那我们来分析下这个错误,从字面上来理解: Name node is in转载 2014-12-04 15:46:51 · 573 阅读 · 0 评论 -
MapReduce过程解析
1、MapReduce理论简介 1.1 MapReduce编程模型MapReduce采用"分而治之"的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然后通过整合各个节点的中间结果,得到最终结果。简单地说,MapReduce就是"任务的分解与结果的汇总"。在Hadoop中,用于执行MapReduce任务的机器角色有两个:一个是JobTrac转载 2014-11-22 23:01:53 · 4707 阅读 · 0 评论 -
如何使用Hadoop读写数据库
在我们的一些应用程序中,常常避免不了要与数据库进行交互,而在我们的hadoop中,有时候也需要和数据库进行交互,比如说,数据分析的结果存入数据库,或者是,读取数据库的信息写入HDFS上,不过直接使用MapReduce操作数据库,这种情况在现实开发还是比较少,一般我们会采用Sqoop来进行数据的迁入,迁出,使用Hive分析数据集,大多数情况下,直接使用Hadoop访问关系型数据库,可能产生比较大的数转载 2014-11-22 23:10:26 · 12467 阅读 · 1 评论 -
MapReduce:详细介绍Shuffle的执行过程
Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce, Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在做MapReduce job 性能调优的工作,需要深入代码研究MapReduce的运行机制,这才对Shuffle探了个究竟。考虑到之前我在看相关资料而看不懂时很恼火,所以在这里转载 2015-12-23 15:40:37 · 1491 阅读 · 0 评论