hadoop
文章平均质量分 75
peng_0129
这个作者很懒,什么都没留下…
展开
-
统计每一个用户(手机号)所耗费的总上行流量、下行流量,总流量(一)
1363157985066 13726230503 00-FD-07-A4-72-B8:CMCC 120.196.100.82 i02.c.aliimg.com 24 27 2481 24681 2001363157995052 13826544101 5C-0E-8B-C7-F1-E0:CMCC 120.197.40.4 4 0 264 0 2001363157991076 1392...原创 2018-06-04 18:03:51 · 3371 阅读 · 0 评论 -
secondarynamenode元数据checkpoint机制
原创 2018-05-30 16:42:07 · 172 阅读 · 0 评论 -
maptask任务分配切片机制(小文件的优化)
mappper程序package cn.itcast.bigdata.mr.wcdemo;import java.io.IOException;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Reducer;/** * 输如为ma...原创 2018-06-07 10:54:01 · 787 阅读 · 0 评论 -
mapreduce程序运行模式(本地模式和集群模式)
----------本地模式(1)mapreduce程序是被提交给LocalJobRunner在本地以单进程的形式运行(2)而处理的数据及输出结果可以在本地文件系统,也可以在hdfs上(3)怎样实现本地运行?写一个程序,不要带集群的配置文件(本质是你的mr程序的conf中是否有mapreduce.framework.name=local以及yarn.resourcemanager.hostname...原创 2018-06-07 15:49:56 · 3478 阅读 · 0 评论 -
什么是HADOOP以及HADOOP生态圈以及各组成部分的简介
什么是HADOOP1. HADOOP是apache旗下的一套开源软件平台2. HADOOP提供的功能:利用服务器集群,根据用户的自定义业务逻辑,对海量数据进行分布式处理3. HADOOP的核心组件有A. HDFS(分布式文件系统)B. YARN(运算资源调度系统)C. MAPREDUCE(分布式运算编程框架)4. ...原创 2018-05-31 16:54:17 · 3866 阅读 · 0 评论 -
HDFS基本概念和特性
1.HDFS前言l 设计思想分而治之:将大文件、大批量文件,分布式存放在大量服务器上,以便于采取分而治之的方式对海量数据进行运算分析; l 在大数据系统中作用:为各类分布式运算框架(如:mapreduce,spark,tez,……)提供数据存储服务 l 重点概念:文件切块,副本存放,元数据 HDFS概念和特性首先,它是一个文件系统,用于存储文件,通过统一的命名空间——目录树来定位文件 其次,...原创 2018-05-31 17:03:32 · 2765 阅读 · 0 评论 -
hadoop2.6.4-ha高可用集群搭建
hadoop2.0已经发布了稳定版本了,增加了很多特性,比如HDFS HA、YARN等。最新的hadoop-2.6.4又增加了YARN HA注意:apache提供的hadoop-2.6.4的安装包是在32位操作系统编译的,因为hadoop依赖一些C++的本地库,所以如果在64位的操作上安装hadoop-2.6.4就需要重新在64操作系统上重新编译(建议第一次安装用32位的系统,我将编译好的64位的...原创 2018-06-14 16:48:05 · 310 阅读 · 0 评论 -
MapReduce之join算法案例实现
1、需求:订单数据表t_order:id date pid amount 1001 20150710 P0001 2 1002 20150710 P0001 3 1002 20150710 P0002 3 商品信息表t_productid pname category_id price P0001 小米5 1000 2 P0002 锤子T1 1000 3...原创 2018-06-08 15:53:26 · 1050 阅读 · 0 评论 -
java.io.IOException: Type mismatch in key from map:解决方法
执行MR程序的时候发生异常:java.lang.Exception: java.io.IOException: Type mismatch in key from map: expected org.apache.hadoop.io.Text, received org.apache.hadoop.io.LongWritable日志如下:[html] view plain copy2016-05-...转载 2018-06-08 15:54:01 · 12878 阅读 · 2 评论 -
HDFS的shell(命令行客户端操作)
HDFS提供shell命令行客户端,使用方法如下:常用命令参数介绍-help 功能:输出这个命令参数手册 -ls 功能:显示目录信息 示例: hadoop fs -ls hdfs://hadoop-server01:9000/ 备注:这些参数中,所有的hdfs路径都可以简写 -->hadoop fs -ls / 等...原创 2018-05-30 10:03:08 · 1450 阅读 · 0 评论 -
在eclipse上运行hadoop导入jar包和本地环境配置
------------eclipse上运行导入jar包 1)拷贝解压后的hadoop(E:\hadoop-2.6.4\share)下的文件夹hadoop到E盘根目录, 重命名为hadoopjars. 2)--------新建的项目导入hadoop的jar包 右键项目properties---java build path---add library---user library ...原创 2018-05-30 09:59:50 · 14820 阅读 · 0 评论 -
(mr案例)---使用groupingcomparator求同一订单中最大金额的订单
有如下订单数据订单id 商品id 成交金额 Order_0000001 Pdt_01 222.8 Order_0000001 Pdt_05 25.8 Order_0000002 Pdt_03 522.8 Order_0000002 Pdt_04 122.4 Order_0000002 Pdt_05 722.4 Order_0000003 Pdt_01 222.8 现在...原创 2018-06-11 16:54:10 · 671 阅读 · 0 评论 -
(mr案例)---- 社交粉丝数据,找出两两之间的共同好友
以下是qq的好友列表数据,冒号前是一个用,冒号后是该用户的所有好友(数据中的好友关系是单向的)A:B,C,D,F,E,OB:A,C,E,KC:F,A,D,ID:A,E,F,LE:B,C,D,M,LF:A,B,C,D,E,O,MG:A,C,D,E,FH:A,C,D,E,OI:A,OJ:B,OK:A,C,DL:D,E,FM:E,F,GO:A,H,I,J 求出哪些人两两之间有共同好友,及他俩的共同好友都...原创 2018-06-11 16:57:13 · 838 阅读 · 0 评论 -
(mr案例)----map端join案例
------- 实现两个“表”的join操作,其中一个表数据量小,一个表很大,这种场景在实际中非常常见,比如“订单日志” join “产品信息”--原理阐述适用于关联表中有小表的情形;可以将小表分发到所有的map节点,这样,map节点就可以在本地对自己所读到的大表数据进行join并输出最终结果可以大大提高join操作的并发度,加快处理速度--示例:先在mapper类中预先定义好小表,进行join-...原创 2018-06-11 17:00:17 · 617 阅读 · 0 评论 -
(mr案例)---weblog日志清洗
weblog日志194.237.142.21 - - [18/Sep/2013:06:49:18 +0000] "GET /wp-content/uploads/2013/07/rstudio-git3.png HTTP/1.1" 304 0 "-" "Mozilla/4.0 (compatible;)"183.49.46.228 - - [18/Sep/2013:06:49:23 +0000] ...原创 2018-06-11 17:15:13 · 1249 阅读 · 0 评论 -
hadoop2.4.1集群搭建
1.准备Linux环境 1.0先将虚拟机的网络模式选为NAT 1.1修改主机名 vi /etc/sysconfig/network NETWORKING=yes HOSTNAME=itcast ### 1.2修改IP 两种方式: 第一种:通过Linux图形界面进行修改(强烈推荐) 进入Linux图形界面 -> 右键点击右上方的两个小电脑 -> 点击Edit ...原创 2018-05-24 17:13:41 · 155 阅读 · 0 评论 -
(mr案例)---运营商流量日志增强--自定义outputformat
现有一些原始日志需要做增强解析处理,流程:1、 从原始日志文件中读取数据2、 根据日志中的一个URL字段到外部知识库中获取信息增强到原始日志3、 如果成功增强,则输出到增强结果目录;如果增强失败,则抽取原始数据中URL字段输出到待爬清单目录程序的关键点是要在一个mapreduce程序中根据数据的不同输出两类结果到不同目录,这类灵活的输出需求可以通过自定义outputformat来实现代码实现...原创 2018-06-12 11:16:15 · 805 阅读 · 0 评论 -
mapreduce参数优化
------资源相关参数//以下参数是在用户自己的mr应用程序中配置就可以生效(1) mapreduce.map.memory.mb: 一个Map Task可使用的资源上限(单位:MB),默认为1024。如果Map Task实际使用的资源量超过该值,则会被强制杀死。(2) mapreduce.reduce.memory.mb: 一个Reduce Task可使用的资源上限(单位:MB),默认为102...原创 2018-06-12 15:16:41 · 134 阅读 · 0 评论 -
统计每一个用户(手机号)所耗费的总上行流量、下行流量,总流量以及根据总流量倒序排序(二)
中心思想是mapper处理数据,写给reduce时。以bean作为key,实现WritableComparable<FlowBean>接口,对传入的 bean进行compareTo比较,写出去的bean就是有序的.package cn.itcast.bigdata.mr.flowsum;import java.io.IOException;import org.apac...原创 2018-06-05 17:46:44 · 2307 阅读 · 0 评论 -
wordCount案例
wordcountmapperpackage cn.itcast.bigdata.mr.wcdemo;import java.io.IOException;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import o...原创 2018-06-01 17:38:48 · 744 阅读 · 1 评论