自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 收藏
  • 关注

原创 linux定时任务crontab的使用

文章目录每秒移动一次文件1、编写脚本文件2、crontab命令的使用时间同步每秒移动一次文件1、编写脚本文件vim movefile.sh: #循环59次 for((i=1;i<60;i++)); do move /root/mydata/originaldata/*.json /root/mydata/jsondata/; #控制节奏,执行一次休息1...

2019-06-26 11:13:34 318

原创 wordCount的三种实现方式(mapreduce,scala,spark)

1. mapreduce实现Mapper类public class WordCountMapper extends Mapper<LongWritable,Text,Text,IntWritable>{ /* * LongWritable key:输入的每一行的偏移量 框架读取的 * Text value:输入的每一行的内容 * Context context:上...

2019-04-03 11:10:51 911

原创 六大设计模式原则和23种设计模式

创造型模式:工厂模式、单例模式结构型模式:装饰器模式、代理模式行为型模式:观察者模式、解释器模式

2019-03-24 12:36:08 183

原创 Spark作业运行架构及常见问题

文章目录1.Spark作业运行架构2.Spark有几种运行模式3.Spark的算子分类4.RDD的五个特征5.RDD,DataFrame,DataSet的区别6.map和flatmap的区别7.spark中rdd.persist()和rdd.cache()的区别8.spark内存不足怎么处理?9.mapreduce和spark计算框架效率区别的原因10.Spark数据倾斜怎么处理?11.Spark...

2019-03-22 14:27:29 217

原创 Kafka基本原理及常见问题

文章目录基本原理kafka的消息产生和消费过程是如何实现的:**Kafka怎样保证接收消息的顺序性:**如何保证kafka有且仅消费一次?kafka丢数据怎么解决?1.消息消费的两种实现2.为什么会发生消息丢失和消息重复?3.消息丢失解决方案:4.消息重复解决方案KafKa获取的数据如何存入hdfs?基本原理kafka是apache开源的一个分布式、可分区、可复制的消息系统。kafka集群中...

2019-03-22 09:10:43 207

原创 各类集群组件启动命令汇总及端口汇总

zookeeperzkServer.sh start客户端:zkCli.shHDFSstart-dfs.shYARNstart-yarn.shyarn-daemon.sh start resourcemanagerHBasestart-hbase.shkafka启动方法1(各节点分别启动)/home/hdp01/apps/kafka_2.11-1.1.0/bin/kafka...

2019-03-21 10:49:29 466

原创 Yarn的执行流程及常见问题

文章目录Q1、Yarn支持的调度器和硬件资源种类?Q2、Yarn作业执行流程Q3、job提交过程Q1、Yarn支持的调度器和硬件资源种类?YARN自带了三种常用的调度器,分别是FIFO,Capacity Scheduler和Fair SchedulerFIFO先进先出,按提交顺序执行Capacity:计算能力调度器,根据任务大小进行手动配置资源Fair:公平调度器,集群中的所有job平均...

2019-03-21 10:00:53 370

原创 mapreduce流程

1.通过FileInputformat的文件加载器加载指定路径,底层调用LineReader进行文件读取不同逻辑切片的数据文件(并行),并按行解析成键值对,其中key为每行相对于首行的偏移量,value为每一行的值,每个键值对调用一次map()函数;2.用户写map()函数,对输入的<key,value>对进行处理,并输出新的<key,value>对;3.输出的数据经过...

2019-03-20 22:15:58 93

原创 HDFS常见问题及命令

文章目录Q1、当小文件数量过多时,如何合并小文件?Q2、hdfs里的 edits和 fsimage作用?Q3、hadoop出现文件块丢失怎么处理?Q4、用命令显示所有的datanode的健康状况Q5、hadoop1.x和2.x、MRv1和MRv2架构上的区别?Q6、如何离开安全模式Q7、如何快速杀死一个jobQ8、Hdfs回收站(防误删)Q1、当小文件数量过多时,如何合并小文件?可以通过命...

2019-03-20 21:43:31 2795 1

原创 HDFS的读写数据流程

Hdfs的写数据流程1、使用HDFS提供的客户端Client,向远程的Namenode发起RPC请求2、Namenode会检查要创建的文件是否已经存在,创建者是否有权限进行操作,成功则会为文件创建一个记录,否则会让客户端抛出异常;3、当客户端开始写入文件的时候,客户端会将文件切分成多个packets,并在内部以数据队列“data queue(数据队列)”的形式管理这些packets,并向Na...

2019-03-20 20:55:23 348

原创 hdfs的数据压缩算法

文章目录1.Gzip压缩2.Bzip2 压缩3.Lzo 压缩4.Snappy 压缩1.Gzip压缩优点:(1)压缩比例比较高,而且压缩、解压速度比较快;(2)hadoop 本身支持,在应用中处理gzip 格式的文件就和直接处理文本一样;大部分 linux 系统都自带 gzip 命令,使用方便.缺点:不支持 split。应用场景: 当每个文件压缩之后在 130M 以内的(1 个块大小内)...

2019-03-20 20:47:02 756

原创 hive操作及函数

1、建库create database mydb;create database if no exists mydb;create database if no exists mydb location "/aa/bb";2、查询数据库查询库列表:show databases;查询库详细信息:desc database [extended] mydb;查询建库的详细信息:show ...

2019-03-20 17:39:07 592

原创 Redis、MySQL、hive、hbase的区别以及数据库及数据仓库的比较

redis:分布式缓存,强调缓存,基于内存传统数据库:注重关系,注重事务性hbase:列式数据库,字典查询,稀疏性存储,无法做关系数据库的主外键,用于存储海量数据,底层基于hdfshive:数据仓库工具,底层是mapreduce。不是数据库,不能用来做用户的交互存储HBase和Redis都是基于Key、Value的数据库。...

2019-03-20 14:57:49 7040

原创 sqoop操作

文章目录基础语法mysql------>hadoop列出MySQL数据有哪些数据库:列出MySQL中的某个数据库有哪些数据表:创建一张跟mysql中的help_keyword表一样的hive表hk:常用的数据导入:1)mysql---hdfs2)mysql---->hive中3)导入mysql数据到hbase:常用的数据导出export:导出HDFS数据到MySQL:导出hive数据到...

2019-03-20 14:32:39 205

原创 Redis简介及持久化

文章目录支持的数据类型持久化机制1. RDB:redis Database(1)手动方式(2)自动触发2. AOF:append only file支持的数据类型Stringhashlistsetsorted set持久化机制因为Redis是内存数据库,数据都是存储在内存中,为了避免进程退出导致数据丢失,需要将数据以某种形式持久化到磁盘中。此外,为了进行灾备,可以将持久化的文...

2019-03-20 10:57:28 101

原创 MySQL的优化,三大范式和事务的四大特性

优化1.对查询进行优化,要尽量避免全表扫描,首先应考虑在 where 及 order by 涉及的列上建立索引。2.应尽量避免在 where 子句中对字段进行 null 值判断,否则将导致引擎放弃使用索引而进行全表扫描3.应尽量避免在 where 子句中使用not in 或or或 != 或 <> 操作符,否则将引擎放弃使用索引而进行全表扫描。4.使用连接(JOIN)来代替子查询...

2019-03-20 09:37:23 275

原创 Hive的数据倾斜及优化

1. 数据倾斜hive容易产生数据倾斜的场景:1.group by 不和聚合函数一起使用2)reduce join3) count(distinct )2.hive的优化:1)排序的选择:order by 性能比较低的sort by 局部排序distribute by 分桶|分区cluster by 分+排序2)尽量避免使用笛卡尔积hive 笛卡尔...

2019-03-18 21:00:18 277

原创 java各种排序方法汇总

各类排序1. 冒泡排序补充二分查找2. 选择排序3.插入排序4.归并排序5.快速排序1. 冒泡排序public class DemoArr1 { public static void main(String[] args) { int [] arr = {45,656,234,44,6}; int temp; for(int i = 0; i &lt; arr.length -...

2019-03-16 14:47:14 298

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除