![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop
文章平均质量分 81
小鑫鑫的太阳
这个作者很懒,什么都没留下…
展开
-
MapReduce
复习 序列化 – Writable 序列化/反序列化机制:在MapReduce中,一个对象要想进行传输,那 么这个对象对应的类必须实现Hadoop提供的序列化接口 - Writable - 只 需要将按序写出 控制分区 – Partitioner 分区 - Partitioner:默认是按照键的哈希码进行分区,但是实际使用过程 中需要手动指定分区情况,就需要写一个类继承Partitioner来指...原创 2018-12-13 13:58:18 · 131 阅读 · 0 评论 -
flume的Sink(目的地)
一、Logger Sink 记录指定级别(比如INFO,DEBUG,ERROR等)的日志,通常用于调试 要求,在 --conf参数指定的目录下有log4j的配置文件 根据设计,logger sink将体内容限制为16字节,从而避免屏幕充斥着过多的内容。如果想要查看调试的完整内容,那么你应该使用其他的sink,也许可以使用file_roll sink,它会将日志写到本地文件系统中。 可配置项说明 ...原创 2018-12-18 13:43:53 · 1070 阅读 · 0 评论 -
Flume的安装和配置
实现步骤: 1.安装jdk,1.6版本以上 2.上传flume的安装包 3.解压安装 4.在conf目录下,创建一个配置文件,比如:template.conf(名字可以不固定,后缀也可以不固定) 5.配置agent组件 相关配置: #配置Agent a1 的组件 a1.sources=r1 a1.channels=c1 (可以配置多个,以空格隔开,名字自己定) a1.sinks=s1 (可以配...原创 2018-12-18 13:04:09 · 192 阅读 · 0 评论 -
flume基本概念
概述: Flume最早是Cloudera提供的日志收集系统,后贡献给Apache。所以目前是Apache下的项目,Flume支持在日志系统中定制各类数据发送方,用于收集数据。 Flume是一个高可用的,高可靠的 鲁棒性(robust 健壮性),分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据(source);同时,Flume提供对数据进行简单处理,...原创 2018-12-17 21:10:31 · 485 阅读 · 0 评论 -
MapReduce其他功能
序列化 – Writable 序列化/反序列化机制:当自定义了一个类之后,如果想要产生的对象在hadoop中进行传输,那么需要这个类实现Hadoop提供的Writable的接口只需要将按序写出并进行序列化/反序列化 Writable案例1:统计每一个人产生的总流量 文件:flow.txt 13877779999 bj zs 2145 13766668888 sh ls 1028 137666688...原创 2018-12-17 20:54:08 · 356 阅读 · 0 评论 -
Hadoop练习
将这两个文件中的内容进行合并整合,输出格式: 1001 date=20170710 name=apple num=2 price=5999 sum=59992 1002 date=20170710 name=xiaomi num=100 price=2999 sum=2999100 文件1:order.txt 1001 20170710 4 2 1002 20170710 3 100 1003 2...原创 2018-12-15 15:46:06 · 284 阅读 · 0 评论 -
Hadoop完全分布式配置
关闭防火墙 临时关闭 : service iptables stop 永久关闭 : shkconfig iptables off(需要重启) 修改主机名 在Hadoop集群中,主机名中不允许出现 _ 以及-,如果出现会导致找不到这台主机 vim /etc/sysconfig/network 编辑 : HOSTNAME=hadoop01 (可以随便起名,但是得记住) (让他生效...原创 2018-12-14 13:39:32 · 192 阅读 · 0 评论