Hadoop
孙文旭
这个作者很懒,什么都没留下…
展开
-
hadoop 安装部署
准备CentOS 6.4 、jdk1.8(已配置)hadoop 2.7.3上传并解压进入hadoop目录下,删除无用文件rm -rf bin/*.cmdrm -rf sbin/*.cmdrm -rf etc/hadoop/*.cmdrm -rf share/doc/修改环境变量修改三个文件(在etc/hadoop/):hadoop-env.sh、yarn-env.sh、map...原创 2019-07-01 21:11:03 · 151 阅读 · 0 评论 -
超详细的APP数据指标体系分析
在移动互联网公司,任何一个APP都应该事先规划好数据体系,才允许上线运营,有了数据才可以更科学、更省力地运营。今天我们来说说如何做APP的数据分析。一、为什么要做APP数据分析1.搭建数据运营分析框架一个APP的构建与运营工作通常由多个角色分工实现,由于大家的工作重点不同,仅关注一个方面的数据就如同管中窥豹,无法全面了解产品运营情况,不能提出行之有效的分析建议。因此,只有搭建完善的数据运营分...转载 2019-07-16 23:20:38 · 33764 阅读 · 0 评论 -
常见的大数据分析模型
常见数据分析模型较多,列举其中常见的八种供楼主参考:1、行为事件分析行为事件分析法来研究某行为事件的发生对企业组织价值的影响以及影响程度。企业借此来追踪或记录的用户行为或业务过程,如用户注册、浏览产品详情页、成功投资、提现等,通过研究与事件发生关联的所有因素来挖掘用户行为事件背后的原因、交互影响等。在日常工作中,运营、市场、产品、数据分析师根据实际工作情况而关注不同的事件指标。如最近三个月来...转载 2019-07-18 20:50:58 · 1765 阅读 · 0 评论 -
HDFS客户端上传下载文件流程
1 上传概述客户端要向HDFS写数据,首先要跟namenode通信以确认可以写文件并获得接收文件block的datanode,然后,客户端按顺序将文件逐个block传递给相应datanode,并由接收到block的datanode负责向其他datanode复制block的副本2 上传详细步骤图3、上传详细描述1 客户端与nameNode通讯1.1 客户端像nameNode发送上传文件...转载 2019-07-23 16:06:50 · 591 阅读 · 0 评论 -
Hive 使用mysql存储元数据,开启多窗口会话
现象:bin/hive这个交互性命令行不能同时开多个,开第二个就报错了原因hive中无论是创建的 数据库还是表 ,这些元数据metaStore需要存储默认情况下存储在Derby数据库里面的,属于嵌入式数据,每次仅仅支持一个会话,解决使用支持多个会话的数据,推荐MySQL存储元素(官方推荐)(1)创建配置文件touch hive-site.xml注意:如果在linux中直接使用vi...原创 2019-07-06 22:24:56 · 416 阅读 · 0 评论 -
Hive 配置+牛刀小试
环境1)Linux 6.42)jdk 1.8.0_2013)hadoop 2.7.34)apache-hive-1.2.1-bin.tar.gz5)mysql 5.xhive是什么?hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类S...原创 2019-07-06 22:16:03 · 135 阅读 · 0 评论 -
hadoop 计数器与自定义计数器
计数器自定义Java计数器1)MapReduce框架允许用户自定义计数器2)计数器是一个全局变量3)计数器有组的概念,可以用Java的枚举类型或者用字符串来定义public Counter getCounter(Enum<?> counterName)public Counter getCounter(String groupName,String counterN...转载 2019-07-05 22:24:50 · 413 阅读 · 0 评论 -
Hadoop MapReduce 压缩优化
compress压缩优化:大大减少磁盘IO以及网络IOMapReduce有很多地方都可以压缩Hadoop常见的压缩格式检查本地库支持哪些压缩:bin/hadoop checknative修改压缩库,只需要替换native包即可常用用的压缩格式:snappy;lzo;lz4hadoop中设置压缩原理:map的中间结果:mapreduce.map.output.compress =...原创 2019-07-05 22:18:13 · 250 阅读 · 1 评论 -
大数据常用组件默认端口号
端口 配置项 说明 Hadoop HDFS 8020 fs.defaultFS hdfs:// 连接 50090 dfs.namenode.secondary.http-address 50091 dfs.namenode.secondary.https-address 50010 dfs.datanode.addr...转载 2019-07-15 10:07:24 · 928 阅读 · 0 评论 -
Hadoop数据类型与自定义数据类型
数据类型自定义类型实现WritableComparable 或者Writable接口然后实现接口的方法:public class UserTestWriteable implements WritableComparable<UserTestWriteable> { //定义成员变量 private String firstKey; private ...原创 2019-07-03 21:00:51 · 170 阅读 · 0 评论 -
Mapreduce中Combiner的使用及误区
问题提出:众所周知,Hadoop框架使用Mapper将数据处理成一个<key,value>键值对,再网络节点间对其进行整理(shuffle),然后使用Reducer处理数据并进行最终输出。 在上述过程中,我们看到至少两个性能瓶颈:(引用)如果我们有10亿个数据,Mapper会生成10亿个键值对在网络间进行传输,但如果我们只是对数据求最大值,那么很明显的Mapper只需要输出它...转载 2019-07-03 14:29:58 · 442 阅读 · 0 评论 -
【干货】Hadoop各模块的具体分析
Hadoop集群架构Hadoop集群由一个Master主节点和若干个Slave节点组成。其中,Master节点上运行NameNode和JobTracker守护进程;Slave节点上运行DataNode和TaskTracker守护进程。Hadoop分别从三个角度将集群中的主机划分为两种角色:Hadoop集群主机角色划分从主机服务角度 从主机服务功能上将集群中的主机分为Master和...转载 2019-07-02 21:13:13 · 950 阅读 · 1 评论 -
MapReduce在YARN上的运行流程
一:客户端向集群提交一个任务,该任务首先到ResourceManager中的ApplicationManager;二:ApplicationManager收到任务之后,会在集群中找一个NodeManager,并在该NodeManager所在的DataNode上启动一个AppMaster进程,该进程用于进行任务的划分和任务的监控;三:AppMaster启动起来之后,会向ResourceMana...转载 2019-07-02 21:02:41 · 364 阅读 · 0 评论 -
Hadoop 日志聚集功能
日志聚集功能当MapReduce程序在Yarn上运行过程中,产生一些日志文件,需要将这些日志文件收集上传HDFS,一遍后续监控查看YARN:主节点和从节点好处:(1)中央化存储,集中存储方便管理(2)可以减轻ResourceManager的负载压力配置(etc/hadoop/yarn-site.xml)...原创 2019-07-02 20:44:50 · 688 阅读 · 0 评论 -
Hadoop历史服务配置
需求:在8088端口上,对已经结束的任务,无法查看历史信息(19888),历史信息记录:有几个Map Task,有几个Reduce task,任务什么时候提交了,什么启动,什么时候完成。配置(etc/hadoop/mapred-site.xml)启动 历史服务sbin/mr-jobhistory-daemon.sh start historyserver...原创 2019-07-02 20:42:38 · 151 阅读 · 0 评论 -
Hadoop 日志文件使用
场景进程启动不了,控制没有报什么错误,这个时候,我们只能通过查看日志的方式找到问题。日志文件目录:${Hadoop_home}/logs日志文件名:文件名:主键模块的名称-用户名-服务名称-主机名后缀名:.log:程序启动相关信息.out:标准输出程序运行的输出system.out.print/error注意:一旦出错了,自己去找对应的文件,然后使用tail命令去查看tail...原创 2019-07-01 21:26:03 · 515 阅读 · 0 评论 -
mapreduce自定义类型-空指针异常
19/07/17 14:22:15 INFO mapreduce.Job: Task Id : attempt_1563334466365_0002_m_000000_0, Status : FAILEDError: java.lang.NullPointerException at java.io.DataOutputStream.writeUTF(DataOutputStream.java...原创 2019-07-17 20:51:16 · 643 阅读 · 0 评论