![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop
hatcher_h
这个作者很懒,什么都没留下…
展开
-
网站流量分析
点击流数据点击流数据:关注的是用户访问网站的轨迹,按照时间来进行先后区分基本上所有的大型网站都有日志埋点通过js的方式,可以获取到你再网站上面点击的所有的链接,按钮,商品,等等,包括你访问的url的链接等等埋点收集的数据,都发送到日志服务器 一条日志大概1Kb来算数据全部在日志服务器分析用户的点击数据,得到我们的点击流模型点击流模型pageView:重视的是每一个页面受到的访问情况,每访问一个页面,就算一条记录visit:重视的是每一个session会话内的访问情况,这次会话内,哪个原创 2020-06-18 17:43:38 · 452 阅读 · 0 评论 -
sqoop
简介apache开源提供的一个数据导入导出的工具,从关系型数据库导入到hdfs,或者从hdfs导出到关系型数据库等等 从关系型数据库到hdfs 叫做导入 从hdfs到关系型数据库 叫做导出 通过MR的inputformat和outputformat来实现数据的输入与输出,底层执行的全部都是MR的任务,只不过这个mr只有map阶段,没有reduce阶段 说白了只是对数据进行抽取,从一个地方,抽取到另外一个地方架构sqoop 1.x 不用安装,解压就能用 sqoop 2.x 架构发生了变原创 2020-06-17 15:54:21 · 161 阅读 · 0 评论 -
hive调优
1、 feach不走mr能够不适用mr的时候尽量不适用mr。hive.feach.task.conversion 的配置有none、minimal、more。hive的默认配置是more.设置为more后,下面hql都不执行mr.select * from xxx;select a from xxx;select a from xxx limit 3;2、 本地模式如果存在很多小文件,每个小文件都要开启mr程序,会极大的浪费资源。所以可以开启本地模式,进行小文件合并。 //开启本地m原创 2020-06-04 10:50:13 · 163 阅读 · 0 评论 -
hive相关操作
建库创建一个hive数据库,在hdfs中就会创建一个文件夹创建库create database 库名;查看库相关信息desc database 库名;查看库详细信息desc database extended 库名;建表CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name [(col_name data_type [COMMENT col_comment], ...)] [COMMENT table_comment]原创 2020-06-02 21:08:02 · 84 阅读 · 0 评论 -
hive基础
数据仓库数据仓库简称DW,用来存储数据。数据仓库不涉及事务操作。目的构建面向分析的集成化环境,主要对数据仓库的数据进行分析特征1、面向主题:数据分析需要一定的范围,需要选取一定的主题2、集成:集成相关联的数据。数据仓库里面的数据是经过清洗的3、非易失性:数据仓库的数据基本上是过去的数据,不需要经过事务操作4、实变性:随着时间的发展,数据的形态在发生改变,数据分析的手段也需要发生对应的改变数据库和数据仓库的区别数据库:OLTP,联网事务处理。主要功能是做事务处理,主要负责频繁的事务操原创 2020-06-01 16:51:18 · 88 阅读 · 0 评论 -
mapreduce分区排序规约
分区相同key的value去同一个reduce分区后需要指定reduceTask个数package pation;import org.apache.hadoop.io.NullWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Partitioner;public class PationOwn extends Partitioner<Text, NullWritable>原创 2020-05-27 21:58:31 · 251 阅读 · 0 评论 -
mapreduce
核心思想mapreduce的思想主要分为map和reducemap:拆分阶段,将复杂的任务拆分成并行的多个小任务(每个任务的执行过程一样)reduce:聚合阶段 map阶段处理好的数据交由reduce阶段组合。mapreduce框架结构完整的mapreduce包括三个部分applicationMaster:分配任务,请求资源mapTask:map阶段数据处理reduceTask:数据整合mapreduce流程1、客户端提交任务2、resourceManager在某一台nodeMa原创 2020-05-26 21:16:39 · 108 阅读 · 0 评论 -
HDFS设计思想、元数据、简单JAVAAPI操作HDFS
一、 设计思路分布式文件系统在Hadoop中文件系统是一个顶层的抽象。分布式文件系统相当与对文件系统进行了一个扩展(类似于java中的接口)。HDFS是分布式文件系统的一个实现,分布式文件系统还有许多其他的实现。二、设计目标1、硬件错误 是常态:特别是硬盘的损坏。所以存在副本机制。2、数据流访问:所有的访问都是访问大量的数据, 使用IO流一直操作。稳定而不是效率。3、大数据集:存入到HDFS的数据都是海量的数据,不擅长处理小数据。因为存入过多小数据,每个小数据都需要元数据,容易原创 2020-05-25 16:57:45 · 189 阅读 · 0 评论 -
HDFS概述
hdfs基本特性hdfs是分布式文件存储系统hdfs是主从架构namenode:主节点,用于处理客户端请求,管理元数据datanode:从节点,存储数据分块存储: 文件过大,就会把一个大文件分为一个个block块。 一个block块的默认大小是128M统一命名空间: 对外提供一个文件访问的地址: hdfs://node01:8020namonode元数据管理:namenode存储所有的元数据,方便数据查找副本机制: 假设一个文件1280M,需要分为10个block块,如果一原创 2020-05-24 15:52:55 · 186 阅读 · 0 评论 -
Hadoop-apache版本部署以及CDH版本部署
apache版本伪分布式namenode和resourceManager在一台机器上完全分布式需要配置高可用namenode和resourceManager在一台机器上都有两个分布在不同的机器上一个namenode宕机,另外一个从standBy转为activeresourceManager同理CDH版本编译由于CDH的所有安装包版本都给出了对应的软件版本,一般情况下是不需要自己进行编译的,但是由于cdh给出的hadoop的安装包没有提供带C程序访问的接口,我们在使用本地库(原创 2020-05-22 22:46:07 · 229 阅读 · 0 评论 -
Hadoop框架模型、Hadoop环境搭建
Hadoop发展历史最初起源nutch项目。这个项目是个通用爬虫项目。项目中遇到两个问题:1、数据存储 Hadoop : HDFS---文件存储系统 MapReduce---分布式文件计算系统 HBase---非关系型数据库2、数据检索 luceneHadoop版本三种版本线上使用CDH版本Hadoop 1.x1、HDFS: 典型的主从架构,没有主备架构 nameNode :主节点,维护集群当中国的元数据,处理客户端请求 scondaryNod原创 2020-05-21 20:16:54 · 237 阅读 · 0 评论 -
Hadoop-Zookeeper环境搭建、Zookeeper的shell操作、Zookeeper的JavaAPI
环境搭建1、下载Zookeeper安装包2、解压3、到Zookeeper解压后的文件夹中,将conf中zoo_sample.cfg复制并重命名为zoo.cfg4、将zoo.cfg中的autopurge.snapRetainCount=3autopurge.purgeInterval=1取消注释以及设置机器的消息传输和选举端口server.1=node01:2888:3888server.2=node02:2888:3888server.3=node03:2888:38885、在Zooke原创 2020-05-20 17:30:26 · 136 阅读 · 0 评论 -
01Hadoop基础环境、zookeeper概念以及特性
三台虚拟机无密码登录1、关闭虚拟机的防火墙以及selinux#防火墙service iptables stopchkconfig iptables off#selinuxvim /etc/selinux/configSELINUX=disabled2、机器更改主机名vim /etc/sysconfig/network3、主机ip映射vim /etc/hosts然后重启虚拟机 reboot -h now4、机器创建公钥和私钥ssh-keygren -t rsa5、将公钥拷贝到第一原创 2020-05-19 22:50:40 · 112 阅读 · 0 评论