大数据
BHBshy
IT小白
展开
-
大数据——初识hadoop
Hadoop项目主要包括以下四个模块Hadoop Common:        为其他Hadoop模块提供基础设施。Hadoop HDFS:        一个高可靠、高吞吐量的分布式文件系统Ha原创 2018-12-10 15:06:58 · 134 阅读 · 0 评论 -
HDFS文件系统(一)
一.HDFS概念1.1概念HDFS,它是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。HDFS的设计适合一次写入,多次读出的场景,且不支持文件的修改。适合用来做数据分析,并不适合用来做网盘应用。1.2 组成HDFS集群包括,NameNode和DataNode以及Secondary Namenode。...原创 2019-05-09 19:36:47 · 4420 阅读 · 0 评论 -
hadoop源码编译
前期准备工作CentOS联网使用root用户编译jar包准备(hadoop源码、JDK7 、 maven、 ant 、protobuf)(1)hadoop-2.7.2-src.tar.gz(2)jdk-7u79-linux-x64.gz(3)apache-ant-1.9.9-bin.tar.gz(4)apache-maven-3.0.5-bin.tar.gz(5)pro...原创 2019-05-09 18:45:40 · 82 阅读 · 0 评论 -
集群时间同步
时间同步的方式:找一个机器,作为时间服务器,所有的机器与这台集群时间进行定时的同步,比如,每日十分钟,同步一次时间。配置时间同步:时间服务器的配置检查ntp是否安装 rpm -qa|grep ntp修改ntp配置文件vi /etc/ntp.conf修改内容如下a)修改1 #restrict 192.168.1.0 mask 255.255.255.0 nomodi...原创 2019-05-09 18:35:58 · 151 阅读 · 0 评论 -
大数据——Hive(基础操作)
建表语句 create table if not exists db_hive_demo.emp( empno int, ename string, job string, mgr int, hiredate string, sal double, comm double, deptno int) row format delimited fie...原创 2019-03-04 18:36:34 · 154 阅读 · 0 评论 -
大数据——Hive分析项目案例
Hive分析项目案例梳理商业网站中经常统计的数据有哪些:UV:独立访客同一个用户访问多次会产生多个记录,但是这些记录会在运算的时候合并为1个语法:count(distinct guid)PV:页面浏览量同一个用户访问多次,产生多条记录,每一条记录都是一次PV语法:count(url)登陆人数:登陆网站访问的人数[普通会员,VIP,SVIP]endUserId标识...原创 2019-03-09 21:00:42 · 6014 阅读 · 4 评论 -
大数据——sqoop安装+案例
SqoopSQL-TO-HADOOP配置:开启zookeeper开启集群配置文件 * sqoop-env.sh #export HADOOP_COMMON_HOME= export HADOOP_COMMON_HOME=/opt/modules/cdh/hadoop-2.5.0-cdh5.3.6/ #Set path to where hadoop-*-core...原创 2019-03-09 20:59:48 · 202 阅读 · 0 评论 -
大数据——hive管理表的方式
Hive管理表的方式使用create创建一个新表 create table if not exists db_web_data.track_log( 字段 ) partitioned by (date string,hour string) (创建分区表) row format delimited fields terminated by '\t';把一张表的某些字段...原创 2019-03-09 20:58:41 · 420 阅读 · 0 评论 -
大数据——Hive(理论篇)
1.什么是Hive感性认知 数据库与数据仓库数据库: mysql、oracle、sqlserver、DB2、sqlite、MDB数据仓库: Hive,是MR的客户端,也就是说不必要每台机器都安装部署Hive理性认知:Hive的特性1、操作接口是采用SQL语法,HQL2、避免了写MapReduce的繁琐过程Hive体系结构1、Client** ...原创 2019-03-03 21:03:24 · 125 阅读 · 0 评论 -
大数据——Zookeeper(理论篇)
1.1 概述Zookeeper是一个开源的分布式的,为分布式应用提供协调服务的Apache项目。Zookeeper从设计模式角度来理解:是一个基于观察者模式设计的分布式服务管理框架,它负责存储和管理大家都关心的数据,然后接受观察者的注册,一旦这些数据的状态发生变化,Zookeeper就将负责通知已经在Zookeeper上注册的那些观察者做出相应的反应,从而实现集群中类似Master/Sla...原创 2019-02-16 20:52:00 · 400 阅读 · 0 评论 -
大数据——MapReduce基础(MapReduce理论篇)
MapReduce理论篇2.1 Writable序列化 序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储(持久化)和网络传输。 反序列化就是将收到字节序列(或其他数据原创 2019-02-03 22:40:48 · 173 阅读 · 0 评论 -
大数据——MapReduce基础(MapReduce概念)
MapReduce概念 Mapreduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架; Mapreduce核心功能是将用户编写的业务逻辑代码和自带默原创 2019-02-03 22:26:15 · 654 阅读 · 1 评论 -
大数据——集群搭建过程中的异常和ssh免密登陆
ssh免密登陆//进到用户.ssh目录下[root@CentOS1 .ssh]$ ssh-keygen -t rsaGenerating public/private rsa key pair.Enter file in which to save the key (/home/beifeng/.ssh/id_rsa): Enter passphrase (empty for no pa...原创 2018-12-10 18:08:52 · 146 阅读 · 0 评论 -
大数据——Hadoop集群的搭建
hadoop环境搭建注:三个重要网址    hadoop下载地址:https://archive.apache.org/dist/hadoop/common/hadoop-2.5.0/    hadoop官方网址:hadoop.apache.org &a原创 2018-12-10 17:06:48 · 190 阅读 · 0 评论 -
HDFS文件系统(二)
五. NameNode工作机制5.1 NameNode&Secondary NameNode工作机制第一阶段:namenode启动第一次启动namenode格式化后,创建fsimage和edits文件。如果不是第一次启动,直接加载编辑日志和镜像文件到内存。客户端对元数据进行增删改的请求namenode记录操作日志,更新滚动日志。namenode在内存中对数据进行增删改查...原创 2019-05-09 20:25:36 · 172 阅读 · 0 评论