qq_39682761-CSDN博客

原创 linux定时任务crontab的使用

文章目录每秒移动一次文件1、编写脚本文件2、crontab命令的使用时间同步每秒移动一次文件1、编写脚本文件vim movefile.sh： #循环59次 for((i=1;i<60;i++)); do move /root/mydata/originaldata/*.json /root/mydata/jsondata/; #控制节奏，执行一次休息1...

2019-06-26 11:13:34 318

原创 wordCount的三种实现方式（mapreduce,scala,spark）

1. mapreduce实现Mapper类public class WordCountMapper extends Mapper<LongWritable,Text,Text,IntWritable>{ /* * LongWritable key:输入的每一行的偏移量框架读取的 * Text value：输入的每一行的内容 * Context context：上...

2019-04-03 11:10:51 911

原创六大设计模式原则和23种设计模式

创造型模式：工厂模式、单例模式结构型模式：装饰器模式、代理模式行为型模式：观察者模式、解释器模式

2019-03-24 12:36:08 183

文章目录1.Spark作业运行架构2.Spark有几种运行模式3.Spark的算子分类4.RDD的五个特征5.RDD，DataFrame，DataSet的区别6.map和flatmap的区别7.spark中rdd.persist()和rdd.cache()的区别8.spark内存不足怎么处理？9.mapreduce和spark计算框架效率区别的原因10.Spark数据倾斜怎么处理？11.Spark...

2019-03-22 14:27:29 217

原创 Kafka基本原理及常见问题

文章目录基本原理kafka的消息产生和消费过程是如何实现的：**Kafka怎样保证接收消息的顺序性：**如何保证kafka有且仅消费一次？kafka丢数据怎么解决？1.消息消费的两种实现2.为什么会发生消息丢失和消息重复？3.消息丢失解决方案:4.消息重复解决方案KafKa获取的数据如何存入hdfs？基本原理kafka是apache开源的一个分布式、可分区、可复制的消息系统。kafka集群中...

2019-03-22 09:10:43 207

原创各类集群组件启动命令汇总及端口汇总

zookeeperzkServer.sh start客户端：zkCli.shHDFSstart-dfs.shYARNstart-yarn.shyarn-daemon.sh start resourcemanagerHBasestart-hbase.shkafka启动方法1（各节点分别启动）/home/hdp01/apps/kafka_2.11-1.1.0/bin/kafka...

2019-03-21 10:49:29 466

原创 Yarn的执行流程及常见问题

文章目录Q1、Yarn支持的调度器和硬件资源种类？Q2、Yarn作业执行流程Q3、job提交过程Q1、Yarn支持的调度器和硬件资源种类？YARN自带了三种常用的调度器，分别是FIFO，Capacity Scheduler和Fair SchedulerFIFO先进先出，按提交顺序执行Capacity:计算能力调度器，根据任务大小进行手动配置资源Fair:公平调度器，集群中的所有job平均...

2019-03-21 10:00:53 370

原创 mapreduce流程

1.通过FileInputformat的文件加载器加载指定路径，底层调用LineReader进行文件读取不同逻辑切片的数据文件（并行），并按行解析成键值对，其中key为每行相对于首行的偏移量，value为每一行的值，每个键值对调用一次map（）函数；2.用户写map()函数，对输入的<key,value>对进行处理，并输出新的<key,value>对;3.输出的数据经过...

2019-03-20 22:15:58 93

原创 HDFS常见问题及命令

文章目录Q1、当小文件数量过多时，如何合并小文件？Q2、hdfs里的 edits和 fsimage作用？Q3、hadoop出现文件块丢失怎么处理？Q4、用命令显示所有的datanode的健康状况Q5、hadoop1.x和2.x、MRv1和MRv2架构上的区别?Q6、如何离开安全模式Q7、如何快速杀死一个jobQ8、Hdfs回收站（防误删）Q1、当小文件数量过多时，如何合并小文件？可以通过命...

2019-03-20 21:43:31 2795 1

原创 HDFS的读写数据流程

Hdfs的写数据流程1、使用HDFS提供的客户端Client，向远程的Namenode发起RPC请求2、Namenode会检查要创建的文件是否已经存在，创建者是否有权限进行操作，成功则会为文件创建一个记录，否则会让客户端抛出异常；3、当客户端开始写入文件的时候，客户端会将文件切分成多个packets，并在内部以数据队列“data queue（数据队列）”的形式管理这些packets，并向Na...

2019-03-20 20:55:23 348

原创 hdfs的数据压缩算法

文章目录1.Gzip压缩2.Bzip2 压缩3.Lzo 压缩4.Snappy 压缩1.Gzip压缩优点：（1）压缩比例比较高，而且压缩、解压速度比较快；（2）hadoop 本身支持，在应用中处理gzip 格式的文件就和直接处理文本一样；大部分 linux 系统都自带 gzip 命令，使用方便.缺点：不支持 split。应用场景：当每个文件压缩之后在 130M 以内的（1 个块大小内）...

2019-03-20 20:47:02 756

原创 hive操作及函数

1、建库create database mydb;create database if no exists mydb;create database if no exists mydb location "/aa/bb";2、查询数据库查询库列表：show databases;查询库详细信息：desc database [extended] mydb;查询建库的详细信息：show ...

2019-03-20 17:39:07 592

原创 Redis、MySQL、hive、hbase的区别以及数据库及数据仓库的比较

redis：分布式缓存，强调缓存，基于内存传统数据库：注重关系，注重事务性hbase：列式数据库，字典查询，稀疏性存储，无法做关系数据库的主外键，用于存储海量数据，底层基于hdfshive：数据仓库工具，底层是mapreduce。不是数据库，不能用来做用户的交互存储HBase和Redis都是基于Key、Value的数据库。...

2019-03-20 14:57:49 7040

原创 sqoop操作

文章目录基础语法mysql------>hadoop列出MySQL数据有哪些数据库：列出MySQL中的某个数据库有哪些数据表：创建一张跟mysql中的help_keyword表一样的hive表hk：常用的数据导入：1）mysql---hdfs2）mysql---->hive中3)导入mysql数据到hbase：常用的数据导出export：导出HDFS数据到MySQL：导出hive数据到...

2019-03-20 14:32:39 205

原创 Redis简介及持久化

文章目录支持的数据类型持久化机制1. RDB:redis Database（1）手动方式（2）自动触发2. AOF：append only file支持的数据类型Stringhashlistsetsorted set持久化机制因为Redis是内存数据库，数据都是存储在内存中，为了避免进程退出导致数据丢失，需要将数据以某种形式持久化到磁盘中。此外，为了进行灾备，可以将持久化的文...

2019-03-20 10:57:28 101

原创 MySQL的优化，三大范式和事务的四大特性

优化1.对查询进行优化，要尽量避免全表扫描，首先应考虑在 where 及 order by 涉及的列上建立索引。2.应尽量避免在 where 子句中对字段进行 null 值判断，否则将导致引擎放弃使用索引而进行全表扫描3.应尽量避免在 where 子句中使用not in 或or或 != 或 <> 操作符，否则将引擎放弃使用索引而进行全表扫描。4.使用连接（JOIN）来代替子查询...

2019-03-20 09:37:23 275

原创 Hive的数据倾斜及优化

1. 数据倾斜hive容易产生数据倾斜的场景：1.group by 不和聚合函数一起使用2）reduce join3) count(distinct )2.hive的优化:1）排序的选择：order by 性能比较低的sort by 局部排序distribute by 分桶|分区cluster by 分+排序2）尽量避免使用笛卡尔积hive 笛卡尔...

2019-03-18 21:00:18 277

原创 java各种排序方法汇总

各类排序1. 冒泡排序补充二分查找2. 选择排序3.插入排序4.归并排序5.快速排序1. 冒泡排序public class DemoArr1 { public static void main(String[] args) { int [] arr = {45,656,234,44,6}; int temp; for(int i = 0; i < arr.length -...

2019-03-16 14:47:14 298

qq_39682761的博客