![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
人生路且修且行
大数据开发,一起探讨一起进步吧
展开
-
Yarn资源调度
由于Yarn良好的兼容性和扩展性,目前可以支持大部分数据引擎,所以了解Yarn的资源调度原理很有必要,Yarn主要由四个重要角色组成:ResourceManager:顾名思义资源管理器,主要负责资源管理和调度,ResourceManager主要由两个组件构成:ApplicationManager,主要负责两类...转载 2019-11-21 19:03:52 · 121 阅读 · 0 评论 -
Hbase RowKey设计原理
rowkey设计原则和方法rowkey设计首先应当遵循三大原则:rowkey长度原则rowkey是一个二进制码流,可以为任意字符串,最大长度为64kb,实际应用中一般为10-100bytes,它以byte[]形式保存,一般设定成定长。一般越短越好,不要超过16个字节,注意原因如下:1、目前操作系统都是64位系...转载 2019-11-21 18:47:47 · 856 阅读 · 0 评论 -
Impala
Impala一、简介Cloudera公司推出,提供对HDFS、Hbase数据的高性能、低延迟的交互式SQL查询功能基于Hive使用内存计算,兼顾数据仓库、具有实时、批处理、多并发等优点是CDH平台首选的PB级大数据实时查询分析引擎二、架构无主模型Impalad数量 = DataNode数量 DataNode负责存数据,Impalad负责计算客户端可以预估数据量的大小,来指定适合...原创 2019-11-12 17:43:51 · 227 阅读 · 0 评论 -
Flume
Flume一、定义Flume是一个高可用的,高可靠的,分布式海量日志采集、聚合和传输的系统Flume基于流式架构,灵活简单Flume最主要的作用就是,实时读取服务器本地磁盘的数据,将数据写入到HDFS中二、组成架构1 架构图Tips: 数据流动是batch Source端不是直接将数据传给Channel,而是将数据经过临时缓存(Transaction) 再传给Channel...原创 2019-11-12 17:33:02 · 176 阅读 · 0 评论 -
Linux命令练手
大数据第二天1、linux文件系统命令rm 删除cp 拷贝mv 移动作用 1移动文件 2更改文件名touch作用 1文件已存在时刷新访问时间 2创建文件创建目录 mkdir2、正则表达式注意,使用扩展正则表达式格式 grep -E “正则表达式” 文件名3、文本分析cut-sort-wc1.cut 显示切割行数据格式:cu...原创 2019-06-04 20:14:26 · 208 阅读 · 0 评论 -
Nginx与session共享
大数据第7天安装配置nginx网上链接https://blog.csdn.net/a857553315/article/details/80378905反向代理通过nginx可使用两台或者多台tomcat,此时用户不直接和实现具体功能的tomcat通讯,而是使用代理nginx,由代理nginx根据用户需求寻找与之匹配的tomcat。#keepalive_timeout 0; ...原创 2019-06-11 08:49:18 · 205 阅读 · 0 评论 -
Hadoop详解与HDFS读写流程
大数据第7天Hadoophadoop:包含分布式文件系统和分布式计算的一个框架。 HDFS,mapreducehadoop项目模块包括4部分:Hadoop Common --工具类Hadoop Distributed System(HDFS) --分布式文件系统Hadoop YARN --分布式资源管理Hadoop MapReduce --分布式计算框架Hadoop-HDFS...原创 2019-06-11 20:46:32 · 368 阅读 · 0 评论 -
Hadoop_HA与联邦机制
大数据第8天HDFS存在的问题 •NameNode单点故障,难以应用于在线场景 HA •NameNode压力过大,且内存受限,影扩展性 F解决单点故障 •HDFS HA:通过主备NameNode解决 •如果主NameNode发生故障,则切换到备NameNode上MapReduce存在的问题响系统 •JobTracker访问压力大,影响系统扩展性 •难以支持除...原创 2019-06-13 08:51:25 · 351 阅读 · 0 评论 -
初识MR_Run编写
大数据第10天初次使用eclipse编写hdfs集群计算心得计算数据文件需要自写3大块:Mapper,Recucer,RunJobMapper:获取数据的对键值并对键值对类型规划,并得到输出的键值对 自定义的Mapper类继承Mapper<xx1,xx2,xx3,xx4> xx1,xx2代表输入数据键值对的类型 xx3,xx4代表输出时键值对的类型 写调用并map方...原创 2019-06-15 08:01:21 · 198 阅读 · 0 评论 -
MR要点汇总、Yarn
大数据第9天MapReduce随心记: 1.默认切片=块 所以默认map就处理一个块 2.切片大小可以人为调节,故一个切片可以对应一个或者多个map,也可以一个切片对应多个块(当要求切片数据>128M时) 3.切片是逻辑的,属于计算层 4.map数量由切片决定 reduce数量由人决定,所以map和reduce可以是任何对应关系 5.reduce最优化案例分析 ...原创 2019-06-13 21:43:05 · 199 阅读 · 0 评论 -
Redis集群原理和总结
大数据第14天-Redis集群原理节点主从(镜像全量)+哈希slot(分片)无主模型 遵循 CAP原则 C一致性 A可用性 P分区容错性,三者不可兼得数据放在大数据集群中的方式/集群承载数据的方式:分片 镜像全量镜像全量 优:做数据的高可用(节点不单一),不担心某一个节点故障,数据在其他节点有相同备份 缺:占用内存资源,横向来说,没有对数据的扩展能力(4G–>12G)...原创 2019-06-21 08:20:39 · 8652 阅读 · 1 评论 -
Spark-Master源码和Master-HA
大数据第36天-Spark-Master源码和Master-HA源码[外链图片转存失败(img-SHo1KLdQ-1563852302856)(C:\Users\86158\AppData\Roaming\Typora\typora-user-images\1563850613904.png)]总结1: Master(startRpcEnvAndEndpoint)的工作主要有2部分组成...原创 2019-07-23 11:26:39 · 180 阅读 · 0 评论 -
Spark算子代码汇总
大数据第35天-Spark算子代码汇总算子分类 Transformations转换算子延迟执行 需要Action算子触发才执行 Action行动算子,触发执行 控制算子 cache persist checkpointTransformations 延迟执行 需要Action算子触发才执行map- 1:1 取数据数据是一行flatMap-1:n 数据是多行...原创 2019-07-23 08:13:23 · 233 阅读 · 0 评论 -
SparkStreaming
大数据第39天-SparkStreaming一、SparkStreaming简介 SparkStreaming是流式处理框架,是Spark API的扩展,支持可扩展、高吞吐量、容错的实时数据流处理,实时数据的来源可以是:Kafka, Flume, Twitter, ZeroMQ或者TCP sockets,并且可以使用高级功能的复杂算子来处理流数据。例如:map,reduce,join,win...原创 2019-07-26 21:03:53 · 356 阅读 · 0 评论 -
Tomcat脚本配置练习
大数据第5天配置tomcat脚本步骤:移入相关tomcat包,解压,更新文件名称在catalina.sh脚本elif [ "1"="start"]中加入CATALINAPID:1" ="start" ]中加入CATALINA_PID:1"="start"]中加入CATALINAPID...原创 2019-06-10 08:10:22 · 116 阅读 · 0 评论 -
Linux-rpm与yam
大数据第三天•rpm查询–rpm -qa : 查询已经安装的所有包–rpm -q PACKAGE_NAME: 查询指定的包是否已经安装–rpm -qi PACKAGE_NAME: 查询指定包的说明信息–rpm -ql PACKAGE_NAME: 查询指定包安装后生成的文件列表–rpm -qc PACEAGE_NEME:查询指定包安装的配置文件–rpm -qd PACKAGE_NAM...原创 2019-06-05 17:37:28 · 360 阅读 · 0 评论 -
大数据知识点汇总---Redis,Spark,Kafka,Hive,Mysql,Hbase,Hadoop...
0、大数据5VVolume 体积大,高速率增长的数据量,PB为单位Velocity 数据增长速度快Variety 不同数据类型,文本、音频、视频Veracity 数据不确定性,大量数据带来不完整性和不一致性Vlue 数据价值 -------------------------------------------------------------------- Redis ---...原创 2019-09-16 19:27:36 · 2840 阅读 · 0 评论 -
Kafka-架构、命令行、生产消费数据、保存机制、拦截器、kafka Streams
Kafka一、消息队列普通消息传递,由A传递给B,容意发生的问题: 接收端B挂掉,发送端A不知,继续发送数据 发送端A的发送数据速度和接收端B速度必须保持一致1 消息队列模式添加消息队列后,A发送数据给消息队列,由消息队列选择发送模式发送给B发送模式主要有2种: 点对点模式,一对一,由接收端主动拉取 由接收端B去开启一个实时监控消息队列的线程,来查看消息队列是否有数据...原创 2019-08-30 20:02:11 · 1714 阅读 · 0 评论 -
Hive函数、压缩存储、调优汇总、权限管理
Hive函数、压缩存储、调优、权限一、函数1 系统内置函数显示自带函数的用法 desc function 函数名;详细显示自带函数的用法 desc function extended 函数名;2 自定义函数1)Hive 自带了一些函数,比如:max/min等,但是数量有限,自己可以通过自定义UDF来方便的扩展2)当Hive提供的内置函数无法满足你的业务处理需要时,此时就可以...原创 2019-08-28 21:11:56 · 332 阅读 · 0 评论 -
Hive分桶、动态分区、查询汇总、窗口函详解、视图索引、运行方式
Hive分桶、动态分区、查询、视图索引一、Hive参数hive当中的参数、变量,都是以命名空间开头通过${}方式进行引用,其中system、env下的变量必须以前缀开头命名空间读写权限含义hiveconf可读写hive-site.xml当中的各配置变量 例:hive --hiveconf hive.cli.print.header=truesyste...原创 2019-08-28 21:05:03 · 3021 阅读 · 0 评论 -
Hive简介、DDL操作(建表、分区、导入导出等)
Hive分析框架一、Hive简述Hive 建立在Hadoop文件系统上的数据仓库架构,并对存储在HDFS中的数据进行分析与管理Hive架构的核心/本质 --将数据通过SQL语句转换成MapReduce操作/转成hdfs操作数据仓库 --主要用来分析和管理数据,一般是查询操作,需要定期加载和刷新数据元数据Metastore(表字段定义,属性,存放位置等除本身数据之外的信息)存...原创 2019-08-28 21:00:59 · 1094 阅读 · 0 评论 -
Flink
Flink一、简介Flink核心是一个流式的数据流执行引擎,其针对数据流的分布式计算提供了数据分布、数据通信以及容错机制等功能。基于流执行引擎,Flink提供了诸多更高抽象层的API以便用户编写分布式任务: DataSet API, 对静态数据进行批处理操作,将静态数据抽象成分布式的数据集,用户可以方便地使用Flink提供的各种操作符对分布式数据集进行处理,支持Java、Scala和Pyt...原创 2019-08-14 19:43:41 · 12955 阅读 · 0 评论 -
kafka简介和Streaming-kafka
大数据第40天-kafka简介和Streaming-kafka高吞吐的分布式消息系统,默认存储磁盘,默认保存7天 时间策略删除,kafka和很多消息系统不一样,很多消息系统是消费完了我就把它删掉,而kafka是根据时间策略删除,而不是消费完就删除,在kafka里面没有一个消费完这么个概念,只有过期这样一个概念特点和特点 系统之间解耦合 峰值压力缓冲 异步通信(消息队列) 生...原创 2019-07-27 20:10:38 · 351 阅读 · 0 评论 -
初识大数据、配置虚拟机IP地址
大数据(第01天)1大数据特点:大量、高速、多样、价值2微服务架构(Java)3今日份命令查看地址 ifconfig更改地址 vi /etc/sysconfig/network-scripts/ifcfg-eth0![img](file:///C:/Users/86158/AppData/Local/Temp/msohtmlclip1/01/clip_image006.jpg):WQ...原创 2019-06-03 20:33:17 · 229 阅读 · 0 评论 -
Linux重定向与shell变量
大数据第6天1.bash4种执行bash的命令方法:先执行(父)的bash小,后执行的(子)bash大 1 在文本文件中执行:source bash文件名 (当前bash) 2 . bash文件名 (父子bash) 3 bash bash文件名 (父子bash,–bash–bash–命令在第二个bash[子]中执行) 4 chmod +x bash文件名–>...原创 2019-06-10 08:11:33 · 493 阅读 · 0 评论 -
SparkSQL概述、6种不同数据格式创建DataFream方式、3种函数
大数据第38天-SparkSQL概述、6种不同数据格式创建DataFream方式一、SparkSQL简述1 SparkSQL产生Hive->Shark->SparkSQLShark Hive on Spark Hive即作为存储又负责sql的解析优化,Spark负责执行SparkSQL Spark on Hive Hive只作为储存角色,Spark负责sql解析优化,执行...原创 2019-07-25 17:39:03 · 932 阅读 · 0 评论 -
Spark提交任务详解、宽窄依赖、算子
大数据第32天-Spark任务提交、算子、RDD宽窄依赖、stage一、任务提交Standalone提交在有压缩包的任意一个节点都可以提交无需配置Standalone-client1.命令将jar包导入spark的examples文件夹中,进入spark/bin,执行命令: ./spark-submit --master spark://node1:7077 --class 项目包...原创 2019-07-19 21:41:42 · 839 阅读 · 0 评论 -
Spark-core scala的40多种常用算子汇总
大数据第34天-Spark40多种算子汇总本篇言简意赅,如有疑惑,请看前几篇相关算子的文章因为没法上传xmind格式,只能导入md上传本人不才,如有错,一起交流Transformation map 对RDD中的每一个元素都执行,前后元素的对应关系是1:1。也就是说,对一个元素执行RDD的操作,可以产生一个元素。 RDD使用map方法,有N个数据就加载了N次 ma...原创 2019-07-21 10:09:11 · 463 阅读 · 0 评论 -
(补)HIVE安装
HIVE安装单用户模式搭建1 解压2 修改hive-site.xml hive.metastore.warehouse.dir /user/hive_remote/warehouse hive.metastore.local true javax.jdo.option.ConnectionURL jdbc:mysql:...原创 2019-06-29 09:59:50 · 146 阅读 · 0 评论 -
初识Hive
大数据第20天-HiveHive 一种建立在Hadoop文件系统上的数据仓库架构,并对存储在HDFS中的数据进行分析与管理Hive架构的核心 --将数据通过SQL语句转换成MapReduce操作/转成hdfs操作数据仓库 --主要用来分析和管理数据,一般是查询操作,需要定期加载和刷新数据元数据Metastore(表字段定义,属性,存放位置等除本身数据之外的信息)存储在关系型数据库(...原创 2019-06-28 08:58:26 · 275 阅读 · 0 评论 -
Storm架构及搭建
大数据第17天-Storm架构及搭建架构 Nimbus 分配任务、资源调度、上传jar包 ZooKeeper 代理协调、健康检查(心跳) Supervisor 接收Nimbus任务、开启/关闭自己管理的worker进程(可以开启n个woker) Worker 运行具体处理运算组件的进程(每个Worker对应执行一个Topology的子集) 执行任务(可以执行n个ta...原创 2019-06-24 16:58:46 · 346 阅读 · 0 评论 -
Linux协调集群-ZooKeeper搭建
ZooKeeper注意:1.需要停下原有的NN思路: 先启动JN,因为格式化NN需要依赖JN, 格式化NN 启动zookeeper,因为格式化zkfc依赖zookeeper 格式化zkfc 启动1,搭建zookeeper --分布式协调,主从模型 在格式化zkfc之前搭建完成,需要4台虚拟机,搭建在sxt002,sxt003,sxt004 a.将zooke...原创 2019-06-24 16:55:47 · 154 阅读 · 0 评论 -
Hbase-H protobuf、优化、MR整合
大数据第24天-Hbase-protobuf、优化、MR整合一、Hbase_protobufufferProtocol Buffers 是一种轻便高效的结构化数据存储格式,可以用于结构化数据串行化,或者说序列化。protobuffer优化存储步骤:1 创建文件 vi phone.proto2 在文件中写相关数据 —java项目包名、本类名、列的v顺序 —整合相同字段/去重...原创 2019-07-02 20:50:53 · 677 阅读 · 0 评论 -
Storm事务详解
Storm事务ack 无法保证数据不被重复计算,但是可以保证数据至少被正确使用一次 将包装的数据流做16位的二进制streamID,每发生stream流交互时将前后的ID进行异或运算,最终异或结果为0,则数据传递成功没有故障;若传递故障则推送给上一个节点重新发送。tips: 与 全1为1,有0则0 要求严格 或 有1为1,全0为0 要求不严 异或 相异为1,相...转载 2019-06-27 08:04:21 · 376 阅读 · 0 评论 -
初识Storm
大数据第16天-storm基础 Storm是个实时的、分布式以及具备高容错的计算系统 实时性—进程常驻内存 数据少量经过磁盘,在内存中处理 分布式—集群操作 高容错—节点宕机,信息处理不完整(acker机制来解决这些问题)Storm计算模型Tuple – 元组,Stream中最小数据组成单元Spout – 数据源 (假) 发送数据/推送数据 本身不会产生...原创 2019-06-23 19:23:30 · 154 阅读 · 0 评论 -
Hbase基础
大数据第23天-Hbase Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩、实时读写的分布式数据库 利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为其分布式协同服务 主要用来存储非结构化和半结构化的松散数据一、HBASE数据模型Row KeyTime ...原创 2019-07-01 21:10:57 · 505 阅读 · 0 评论 -
Storm容错机制、Drpc、kafka集群搭建
Storm-容错机制、Drpc、kafkaStorm-容错机制架构 Nimbus 分配任务、资源调度、上传jar包 ZooKeeper 代理协调、健康检查(心跳) Supervisor 接收Nimbus任务、开启/关闭自己管理的worker进程(可以开启n个woker) Worker 运行具体处理运算组件的进程(每个Worker对应执行一个Topology的子集) ...原创 2019-06-25 21:22:02 · 189 阅读 · 0 评论 -
HIVE分桶、动态分区、LATERAL VIEW 视图索引、GUI安装
大数据第21天一、hive参数hive当中的参数、变量,都是以命名空间开头通过${}方式进行引用,其中system、env下的变量必须以前缀开头命名空间读写权限含义hiveconf可读写hive-site.xml当中的各配置变量 例:hive --hiveconf hive.cli.print.header=truesystem可读写系统变量,包...原创 2019-06-29 10:00:43 · 349 阅读 · 0 评论 -
HIVE权限管理和优化
大数据第22天-HIVE权限管理和优化权限管理三种授权模型:1、Storage Based Authorization in the Metastore Server 基于存储的授权 - 可以对Metastore中的元数据进行保护,但是没有提供更加细粒度的访问控制(例如:列级别、行级别)。2、SQL Standards Based Authorization in HiveServer...原创 2019-06-30 17:50:34 · 497 阅读 · 0 评论 -
Spark-stage、task发送、资源任务调度、算子
大数据第33天-Spark_task发送、资源任务调度、算子一、task发送[外链图片转存失败(img-jGSGLV6C-1563624850421)(C:\Users\86158\AppData\Roaming\Typora\typora-user-images\1563585716005.png)]Application -> job -> stage -> tasks...原创 2019-07-20 20:14:27 · 459 阅读 · 0 评论