2018年11月_汤愈韬

原创 Hdoop搭建伪分布式

我在使用完全分布式的时候，运行MapReduce程序非常地卡，所以我为了跑MapReduce程序，我又搭建了一个伪分布式的hadoop，我参考了下面几篇博客：https://www.cnblogs.com/zhangyinhua/p/7647686.htmlhttps://blog.csdn.net/thus_/article/details/78397495https://blog.csd...

2018-11-30 20:17:25 1180

原创测试将web日志流文件写入hdfs的配置文件

a1.sources = r1a1.sinks = k1a1.channels = c1a1.sources.r1.type = spooldira1.sources.r1.spoolDir =/home/hadoop/loga1.sources.r1.fileHeader = truea1.sinks.k1.type = hdfsa1.sinks.k1.channel = c...

2018-11-30 18:03:33 1287

原创 Web日志流处理的MapReduce程序 -- 两个（一个使用Collections排序一个使用MapReduce本身的排序）

我的这两个项目代码地址：Collections排序：https://gitee.com/tanghongping/web_click_mr_hveMapReduce排序：https://gitee.com/tanghongping/MapReduceTest这两个项目里面会有一些车市的代码，可以忽略。使用Collections.sort排序WeblogBeanpackage com...

2018-11-29 09:21:13 1203

原创网站用户行为日志采集和后台日志服务器搭建

请看原文 — 我好不容易找到的，作者写得非常好。https://blog.csdn.net/weixin_37490221/article/details/80894827?utm_source=blogxgwz0我就给大家分享一下软件把，这样更方便了，我的软件都是按照原文作者的软件去下载的，都是一致的，所以在安装的时候直接复制原文作者的代码就行了。https://pan.baidu.co...

2018-11-28 10:25:48 2125

原创有关azkabn调度任务的一些提醒点 -- 我遇到的坑

使用ozkaban调用MapReduce，像我这样的屌丝，穷得一批。没钱买好机器。所以我使用的虚拟机都是最小配置。机器运行MapReduce程序非常卡。我就经常卡死，一卡死又得重启ozkaban服务，非常麻烦。我经常卡死就是我本来有一个job任务，用来调度MapReduce程序的，但是我以为是卡住了，点了立即执行，没反应，然后我就点了好多次，这下惨了，相当于你的机器要运行好多次这个任务。...

2018-11-26 16:49:19 1285

原创 azkaban的配置 -- 软件包

下面这个连接里面有azkaban的安装软件，以及配置方法，和使用方式直接下载就行。配置的东西都差不多，我就不写了。https://pan.baidu.com/s/1LkJJu4ww9zdzswV2-l-XiA...

2018-11-26 16:37:01 97

原创 azkaban - Remote host closed connection during handshake和SSL peer shut down incorrectly报错的解决方法

我使用azkan调度MapReduce程序，但是这个job执行失败，然后我可能是强制关闭azkaban的服务，整个机器变得超级超级卡，我执行Linux命令变得很慢，我使用jps查看进程，他娘的，好几分钟才出现，妈的，我穷得机器买不起贵的，所以太它娘的卡了。我靠，吓一跳太恐怖了，这么多没关，卡死了，把RunJar全部关了。我之前关不JPS查询到的RunJar，我只是使用azkaban里面的关...

2018-11-26 16:21:16 1421

原创 ERROR 2002 (HY000): Can't connect to local MySQL server through socket '/var/lib/mysql/mysql.sock' (

某一次我可能没有正常关闭Mysql就直接让机器关机了，造成了MySQL下次都打不来了。先查看进程 ps -A | grep -i mysql如果Mysql进程开启了就把这个进程kill -9 ,然后再启动试试。但我的mysql进程就是没有启动起来我他娘的又看了下面的这几篇博客：https://www.cnblogs.com/adolfmc/p/5875584.htmlhttps...

2018-11-26 08:53:27 1943 1

原创 Flume 的配置

Flume 的概述： Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。 Flume可以采集文件，socket数据包等各种形式源数据，又可以将采集到的数据输出到HDFS、hbase、hive、kafka等众多外部存储系统中 一般的采集需求，通过对flume的简单配置即可实现 Flume针对特殊场景也具备良好的自定义扩展能力，因此，flume可以适用于大部分的日...

2018-11-25 15:58:49 1830 1

原创 WEB日志清洗 - java代码

需要从访问日志中梳理出每一个session（如果一个用户两次相邻请求之间的时间差 &lt; 30 min，则该两次请求同属于同一个session,否则分属于不同的session）,并且为session的历次请求打上序号模拟日志：194.237.142.21 - - [18/Sep/2013:06:49:18 +0000] "GET /1.html HTTP/1.1" 304 0 "-" "M.

2018-11-25 09:34:31 1407

原创 java如何通过绝对路径和相对路径读取文件

请看源文章https://blog.csdn.net/qq_39629343/article/details/80500820

2018-11-24 17:05:48 935

原创 Hive数据处理之报表累计

数据：+----------+---------+--------+| username | month | salary |+----------+---------+--------+| A | 2015-01 | 5 || A | 2015-01 | 15 || B | 2015-01 | 6 || ...

2018-11-24 11:33:07 2168

原创 Hive的分桶管理和分区

分桶管理：https://blog.csdn.net/freefish_yzx/article/details/77150714分桶和分区：https://blog.csdn.net/lzm1340458776/article/details/43085423

2018-11-23 10:27:17 1189

原创 Hive分区partition详解

请看原文作者的博客：https://blog.csdn.net/qq_36743482/article/details/78418343我补充的是：外部表的分区：create external table t2( id int ,name string ,hobby array&lt;string&gt; ,add map&lt;St...

2018-11-23 09:39:18 747

原创 hive的内部表跟外部表

先建立一个内部表：建表语句-进入hive命令行输入：create table t1( id int ,name string ,hobby array&lt;string&gt; ,add map&lt;String,string&gt;)row format delimitedfields terminated by ','col...

2018-11-23 08:48:12 921

原创 Hive的安装

1.将hive的安装包上传到hadoop集群的一台节点上解压到apps目录下可以去官网上下载hive的安装包将安装文件修改成 hivemv apache-hive-1.2.1-bin/ hivehive的文件结构：2.修改配置文件可以不需要修改配置，直接就启动hive，但是这样hive使用的数据库是默认的 derby 。derby会在运行的当前目录下生成文件，启动目录不同，...

2018-11-22 20:16:00 403

原创 Linux（最简单的版本）下安装MySQL -笔者遇到一系列坑

首先先上传安装包：笔者使用的是rpm按章包：https://pan.baidu.com/s/171UVMHmPBQX6ObcoXeb2BA我之前到处这这个安装包，在官网上，我都没找到这个rpm的安装包。MySQL的官网下载：https://dev.mysql.com/downloads/mysql/但是我一直在官网上找不到这个rpm的下载包。我还发现了一个地方可以下载rpm包：htt...

2018-11-22 15:12:27 613

原创 hadoop中NameNode、DataNode、Secondary、NameNode、ResourceManager、NodeManager 介绍

请点击查看原文https://blog.csdn.net/gamer_gyt/article/details/51758881

2018-11-21 15:03:36 424 1

原创自定义OutputFormat -实现往不同的目录输出文件

代码地址：https://gitee.com/tanghongping/hadoopMapReduce/tree/master/src/com/thp/bigdata/myInputFormat需求：现有一些原始日志需要做增强解析处理，流程：1、从原始日志文件中读取数据2、根据日志中的一个URL字段到外部知识库中获取信息增强到原始日志3、如果成功增强，则输出到增强结果目录；如果...

2018-11-21 09:31:33 615

转载 FileInputFormat -- 从源码分析

请看作者的原文：https://www.cnblogs.com/teagnes/p/5969459.html

2018-11-21 09:19:42 208

原创自定义GroupingComparator -- 求出每一笔订单中成交金额最大的一笔交易

代码地址：https://gitee.com/tanghongping/hadoopMapReduce/tree/master/src/com/thp/bigdata/secondarySort订单id商品id成交金额Order_0000001Pdt_01222.8Order_0000001Pdt_0525.8Order_0000002Pdt_03...

2018-11-20 11:39:38 800

原创求好友中互粉的好友对

好友列表：A:B,C,D,F,E,OB:A,C,E,KC:F,A,D,ID:A,E,F,LE:B,C,D,M,LF:A,B,C,D,E,O,MG:A,C,D,E,FH:A,C,D,E,OI:A,OJ:B,OK:A,C,DL:D,E,FM:E,F,GO:A,H,I,J分析A里面好友有B，而B里面好友有A，那么A跟B就是互为好友。我们的Map过程：将好友列表文件的每...

2018-11-19 16:38:39 902

原创 Map端的join -- 商品跟订单合并

参考博客：https://my.oschina.net/leejun2005/blog/111963需求：之所以存在reduce join，是因为在map阶段不能获取所需要的join字段，即同一个key对应的字段可能位于不同的map中。但是Reduce side join 是非常低效的，因为shuffle阶段要经过大量的数据传输。解决办法：Map side join 是针对一下场景进行优...

2018-11-19 10:01:28 722

原创 Hadoop2.X的ChainMapper和ChainReducer

请看原文：https://blog.csdn.net/qq_806913882/article/details/54092706代码是我自己写的，可以下载下来自己去跑一下，就省得自己写了。https://gitee.com/tanghongping/hadoopMapReduce/tree/master/src/com/thp/bigdata/chainMapperAndReducer...

2018-11-18 17:10:42 579

转载详解重写equals()方法就必须重写hashCode()方法的原因

请跳转看原文https://blog.csdn.net/u013679744/article/details/57074669

2018-11-17 21:04:27 114

原创 Reduce阶段的join - (气象站与天气记录)

情形：假设有两个数据集，气象站数据库和天气记录数据库，并且考虑如何合二为一。一个典型的查询：输出气象站的历史信息，同时各行记录也包含气象站的元数据信息。Reduce join在reduce 端进行连接是MapReduce框架实现join操作最常见的方式，其具体的的实现原理如下：Map端的主要工作：为来自不同表(文件)的 key/value对打标签以区别不同源的记录。然后使用连接字段（两...

2018-11-17 20:50:52 781

原创 Reduce端join算法实现 - （订单跟商品）

现在有两张表 1.订单表 2.商品表订单数据表t_order：iddatepidamount100120150710P00012100220150710P00013100220150710P00023100320150710P00032商品信息表t_product:idpnamecategory_idpr...

2018-11-17 20:00:44 338

转载 Hadoop之Partition深度解析

请看原文https://blog.csdn.net/yhyr_ycy/article/details/51988218

2018-11-17 16:04:51 204

原创在eclipse中运行集群版MapReduce程序

我们在windows下的eclipse直接将mapReduce程序发送到hadoop集群，在集群上跑mapReduce程序。1. 首先我们需要配置hadoop集群的参数我们可以通过代码的方式进行配置，也可以从hadoop集群中直接下载配置文件下载好的配置文件直接放在项目的src目录下面，注意一定是src目录，只有src目录才可以将源码中的配置文件覆盖。2设置jar包的位置：如果现在...

2018-11-16 21:02:26 646

原创 hadoop jar 执行错误

我们知道打jar包的时候是有两种方式，第一种是直接打成jar,另一种是打成Runnable jar这两种方式在使用hadoop jar 的时候是不一样的，如果是直接打成jar，就是那种文件非常小的那种方式：那么运行的方法是：hadoop jar mr1.jar com.thp.bigdata.wcdemo.WordcountDriver /wordcount/input /wordcoun...

2018-11-15 09:26:44 4247

原创 MapReduce程序在yarn集群上流程分析

yarn本身也是一个集群，这个集群的老大是resourcemanager，其他的小弟是nodemanager。yarn 是一个资源调度平台，负责为运算程序提供服务器运算资源，相当于一个分布式的操作系统平台，而MapReduce等运算程序则相当于是运行于操作系统之上的应用程序。运算资源有：运算测程序jar包，配置文件，cpu，内存，IOLinux操作系统提供一种机制可以不同的进程分开这些运算资...

2018-11-14 19:46:04 252

原创 MapReduce内部shuffle过程详解（Combiner的使用）

Maptask调用一个组件FileInputFormatFileInputFormat有一个最高层的接口 --> InputFormat我们不需要去写自己的实现类，使用的就是内部默认的组件：TextInputFormatmaptask先调用TextInputFormat, 但是实质读数据是TextInputFormat调用RecordReader。 RecordReader 是一个...

2018-11-14 15:40:08 4044

原创 MapReduce的本地运行模式（debug调试）

（1）mapreduce程序是被提交给LocalJobRunner在本地以单进程的形式运行。在本地运行mapreduce程序可以更快地运行，并且可以使用debug进行跟踪代码，方便查错，在本地运行主要是看mapreduce的业务逻辑是不是正确，如果在本地运行错误的话，那么在集群上肯定也是错的（2）处理的数据及输出结果可以在本地文件系统，也可以在hdfs上（3）本地模式非常便于进行业务逻辑的de...

2018-11-14 09:24:18 6649

原创统计每一个用户(手机号)所耗费的上行流量,下行流量,总流量

假设从数据运营商可以获取用户(通过手机号来区分)的上网信息:1363157985066 13726230503 00-FD-07-A4-72-B8:CMCC 120.196.100.82 i02.c.aliimg.com 24 27 2481 24681 2001363157995052 13826544101 5C-0E-8B-C7-F1-E0:CMCC 120.197.40.4 ...

2018-11-06 10:21:38 5786

原创 MapReduce中的分区方法Partitioner

在进行MapReduce计算时,有时候需要把最终的输出数据分到不同的文件中,比如按照省份划分的话,需要把同一个省份的数据放到一个文件中,按照性别划分的话,需要把同一个性别的数据放到一个文件中.我们知道最终的输出数据是来自Reducer任务的,那么如果要得到多个文件,意味着有同样数的Reducer任务在运行.Reducer任务的数据来自于Mapper任务,也就是说Mapper任务要划分数据,对于不...

2018-11-06 10:20:08 751

原创 MapReduce 详解

MapReduce是一个分布式运算程序的编程框架,是用户开发&amp;quot;基于hadoop的数据分析应用&amp;quot;MapReduce 核心功能是将用户编写的业务逻辑和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个hadoop集群上分布式运算程序1.分布式运算程序往往至少需要2个阶段,完全并行2.第一个阶段的task并发实例各司其职互不相干,完全并行3.第二个阶段的task并发实例互不相干,但是他...

2018-11-03 08:12:07 938

汤小萌的博客