大数据
jhchengxuyuan
这个作者很懒,什么都没留下…
展开
-
kafka小白教程从入门到精通
kafka小白教程kafka介绍kafka的概念Kafka(底层源码使用scala语言实现): kafka分布式集群的搭建 kafka分布式集群的实操: 1)命令行客户端(测试)主题的CRUD操作发布消息 订阅消息 2)使用Java API来操作kafka分布式集群: 发布消息 订阅消息 kafka内部原理 自定义分区 消息拦截器 理论: ...原创 2019-11-13 23:15:04 · 2407 阅读 · 1 评论 -
hive进阶四
hive进阶四hive的字段分隔符:hive默认的列与列之间的分隔符是:\001 、ctrl+V ctrl+A(^A) 、SOH 、 \u0001(多用于java输出),注意不是tab通常分隔符:tab," "|\n\001 ^A (\u0001,注意不是\0001也不是\01)\002 ^B\003 ^Chive的文件存储格式:File Formats and Co...原创 2019-09-21 19:57:51 · 719 阅读 · 0 评论 -
datax安装与使用详解
一、dataX概览1.1 DataXDataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL、SQL Server、Oracle、PostgreSQL、HDFS、Hive、HBase、OTS、ODPS 等各种异构数据源之间高效的数据同步功能。1.2 FeaturesDataX本身作为数据同步框架,将不同数据源的同步抽象为从源头数据源读取数据的Reader插件,以...原创 2019-09-21 17:51:56 · 6382 阅读 · 0 评论 -
Flume安装与详解
大数据组件 Flume前言:里面的各种source,channel和simk时可以参考官网去满足自己的需求,看着官网可以很快的实现;https://flume.apache.org/releases/content/1.9.0/FlumeUserGuide.html2.12.1 flume简介-基础知识Flume 初始的发行版本目前被统称为 Flume OG(original gener...原创 2019-09-21 16:08:06 · 457 阅读 · 0 评论 -
Hive进阶3
Hive3struct:create table if not exists str1(name string,score struct<chinese:int,math:int,english:int>---注意它的创建和array创建的不同)row format delimited fields terminated by '\t'collection items ...原创 2019-09-12 00:02:06 · 379 阅读 · 0 评论 -
hive的进阶之路2
hive的分桶:为了更加细粒度划分数据。语法:[CLUSTERED BY (COLUMNNAME COLUMNTYPE [COMMENT ‘COLUMN COMMENT’],…)[SORTED BY (COLUMNNAME [ASC|DESC])…] INTO NUM_BUCKETS BUCKETS]:抽样查询join提高查询效率分区&分桶分区下创建分桶表表下创建分桶表...原创 2019-09-10 23:57:37 · 129 阅读 · 0 评论 -
hive的初步认识与基本语法一
hivehive的背景:fackbook为解决海量数据分析,避免使用传统mr而开发出来类sql的操作大数据工具。hive定义hive是一个数据仓库软件,它能够使用类sql进行读、写、管理基于集群上的海量数据。hive可以对已经存在的数据进行结构,同时hive也提供命令行和jdbc让用进行连接hive。hive和hadoop的关系:hive基于hadoop,hive本身没有数据存储能...原创 2019-09-10 23:56:39 · 263 阅读 · 0 评论 -
HDFS的安装配置及工作流程
HDFS2.2.1 Hadoop相关概念Hadoop是一个由Apache基金会所开发的分布式系统基础架构,用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS具有高容错性的特点,并且设计用来部署在低廉的硬件上,而且它提供高吞吐...原创 2019-09-10 23:55:06 · 314 阅读 · 0 评论 -
HDFS的安装配置及工作流程
HDFS2.2.1 Hadoop相关概念Hadoop是一个由Apache基金会所开发的分布式系统基础架构,用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS具有高容错性的特点,并且设计用来部署在低廉的硬件上,而且它提供高吞吐...原创 2019-08-29 20:31:56 · 3309 阅读 · 0 评论 -
高可用HA的搭建
配置高可用1.安装zookeeper2.编辑那个安装zookeeper目录下conf文件夹里面的zoo_cfg没有的话拷贝zoo_(添加到里面三台机器的ip地址,创建目录,在目录下创建myid,然后在每个myid下添加1,2,3、分别对应第一台,第二三台机器)dataDir=/home/hadoop/apps/zkdataserver.1=192.168.80.10:2888:3888...原创 2019-08-29 20:17:24 · 164 阅读 · 0 评论